当前位置：首页 > 文娱雷军千万年薪挖角95后AI天才少女雷军年薪挖角95后天才少女

雷军千万年薪挖角95后AI天才少女雷军年薪挖角95后天才少女

作者：chunzhi 发布时间:2024-12-30

　　雷军千万年薪挖角95后AI天才少女，雷军年薪挖角95后天才少女

　　国产大模型DeepSeek在全球火了，并带火了一个95后AI“天才少女”罗福莉。hww灵异岛|www.lingyidao.com

　　最近，中国头部量化私募公司幻方量化旗下专注于AI大模型研究开发的Deepseek（深度求索公司），宣布旗下的全新系列模型DeepSeek-V3首个版本上线并同步开源。DeepSeek-V3是深度求索自研的MoE模型（混合专家大模型），不仅以卓越的性能超越或媲美全球顶级的开源及闭源模型，更重要的是训练成本极低，被称为“AI界的拼多多”，以史无前例的性价比被国内外一众圈内大佬点赞，引发广泛关注。hww灵异岛|www.lingyidao.com

　　与DeepSeek一起进入大家视野的，是95后AI“天才少女”罗福莉。她曾在DeepSeek参与了DeepSeek-V2的研发，是这款模型的关键开发者之一。在DeepSeek-V3发布前几天，媒体报道称小米创始人雷军已开出千万年薪，将罗福莉招至麾下，罗福莉将就职于小米AI实验室，领导大模型团队。hww灵异岛|www.lingyidao.com

　　“AI界拼多多”刷屏海外hww灵异岛|www.lingyidao.com

　　据最新发布的技术报告，DeepSeek-V3参数量为671B，激活参数为37B，使用的预训练token量为14。8万亿。其多项评测成绩超越了阿里的Qwen2。5-72B和MetadeLlama-3。1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3。5-Sonnet不分伯仲。hww灵异岛|www.lingyidao.com

　　“中国AI公司Deepseek发布并开源了一个前沿的大语言模型，而其训练的预算却非常低。”前OpenAI联创、知名AI科学家AndrejKarpathy在其个人社交平台上表示，DeepSeek-V3整个训练过程仅用了不到280万GPU小时，相比之下，Meta旗下顶尖的开源模型Llama-3405B的训练时长是3080万GPU小时。如果DeepSeekV3的优良表现能够得到广泛验证，那么这将是资源有限情况下对研究和工程的一次出色展示。hww灵异岛|www.lingyidao.com

　　若从成本上进行更直观的对比，假设H800的租金为每GPU小时2美元，DeepSeek-V3的总训练成本仅为600万美元不到，是Llama-3405B超6000万美元训练成本的十分之一不到。hww灵异岛|www.lingyidao.com

　　极高的性价比让DeepSeek-V3一经发布便引发国内外广泛关注。Meta的AI研究科学家田渊栋称“在非常有限的预算下实现强劲表现”，“这是一项了不起的工作”。知名AI数据公司ScaleAI创始人兼CEOAlexandrWang也表示，DeepSeek-V3“训练所需计算量减少了10倍”，“在美国休息的时候，他们努力工作，以更低的成本、更快的速度和更强的实力迎头赶上。”hww灵异岛|www.lingyidao.com

　　这一圈粉无数的大模型，由被称为“AI界拼多多”的DeepSeek研发。公开资料显示，DeepSeek专注于开发先进的大语言模型和相关技术，由国内知名量化资管巨头幻方量化于2023年创立，也被美国硅谷誉为“来自东方的神秘力量”。hww灵异岛|www.lingyidao.com

　　事实上，DeepSeek并非第一次“出圈”。早在半年前，其发布的DeepSeek-V2就因性能达GPT-4级别，但开源、可免费商用、且API价格仅为GPT-4-Turbo的百分之一而引发业内关注。对于为何能做到如此高的性价比，DeepSeek官方解释称，DeepSeek-V2采用了创新的架构，例如注意力机制方面的MLA（多头潜在注意力）和前馈网络方面的DeepSeekMoE架构等，以实现具有更高经济性的训练效果和更高效的推理。hww灵异岛|www.lingyidao.com

　　正因为在训练效率和成本方面的优势，DeepSeek也是国内最早开启大模型降价的厂商，也是大模型价格战的源头和推动者。在其发布DeepSeek-V2之后，字节、阿里、百度等厂商纷纷跟进降价。同时，DeepSeek也是中国互联网大厂以外，唯一一家储备了万张A100芯片的公司，这为其早期的技术研发提供了坚实的算力基础。hww灵异岛|www.lingyidao.com

　　“我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼。”在回应当初为何打响大模型价格战第一枪时，DeepSeek创始人梁文锋表示。这位毕业于浙江大学电子工程系的80后，一直潜心研究技术。据媒体报道，梁文锋在工作中始终保持着低调的作风，和所有研究员一样，每天“看论文，写代码，参与小组讨论”。hww灵异岛|www.lingyidao.com

　　一名人工智能行业资深业内人士向证券时报记者分析称，DeepSeek以200人左右的小团队，且不依靠外部融资，做出了一个有性价比并被全球主流AI界人士所认可的大模型。“一是他们在早期就买了很多算力卡，投入了很多资源做研究；二是他们是做量化的，不像大厂有其他各种各样的盈利需求，也跟他们不构成竞争关系，能更专注于模型开发。”该业内人士表示。hww灵异岛|www.lingyidao.com

1/2 1 2 下一页尾页

雷军千万年薪挖角95后AI天才少女 雷军年薪挖角95后天才少女

雷军千万年薪挖角95后AI天才少女雷军年薪挖角95后天才少女