“AI界拼多多”刷屏!95后“天才少女”火了,雷军曾开出千万年薪抢人!
最近,中国头部量化私募公司幻方量化旗下专注于AI大模型研究开发的Deepseek(深度求索公司),宣布旗下的全新系列模型DeepSeek-V3首个版本上线并同步开源。DeepSeek-V3是深度求索自研的MoE模型(混合专家大模型),不仅以卓越的性能超越或媲美全球顶级的开源及闭源模型,更重要的是训练成本极低,被称为“AI界的拼多多”,以史无前例的性价比被国内外一众圈内大佬点赞,引发广泛关注。
与DeepSeek一起进入大家视野的,是95后AI“天才少女”罗福莉。她曾在DeepSeek参与了DeepSeek-V2的研发,是这款模型的关键开发者之一。在DeepSeek-V3发布前几天,媒体报道称小米创始人雷军已开出千万年薪,将罗福莉招至麾下,罗福莉将就职于小米AI实验室,领导大模型团队。

“AI界拼多多”刷屏海外
据最新发布的技术报告,DeepSeek-V3参数量为671B,激活参数为37B,使用的预训练token量为14.8万亿。其多项评测成绩超越了阿里的Qwen2.5-72B和Metadellama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

“中国AI公司Deepseek发布并开源了一个前沿的大语言模型,而其训练的预算却非常低。”前OpenAI联创、知名AI科学家AndrejKarpathy在其个人社交平台上表示,DeepSeek-V3整个训练过程仅用了不到280万GPU小时,相比之下,Meta旗下顶尖的开源模型Llama-3405B的训练时长是3080万GPU小时。如果DeepSeekV3的优良表现能够得到广泛验证,那么这将是资源有限情况下对研究和工程的一次出色展示。
若从成本上进行更直观的对比,假设H800的租金为每GPU小时2美元,DeepSeek-V3的总训练成本仅为600万美元不到,是Llama-3405B超6000万美元训练成本的十分之一不到。
极高的性价比让DeepSeek-V3一经发布便引发国内外广泛关注。Meta的AI研究科学家田渊栋称“在非常有限的预算下实现强劲表现”,“这是一项了不起的工作”。知名AI数据公司ScaleAI创始人兼CEOAlexandrWang也表示,DeepSeek-V3“训练所需计算量减少了10倍”,“在美国休息的时候,他们努力工作,以更低的成本、更快的速度和更强的实力迎头赶上。”

这一圈粉无数的大模型,由被称为“AI界拼多多”的DeepSeek研发。公开资料显示,DeepSeek专注于开发先进的大语言模型和相关技术,由国内知名量化资管巨头幻方量化于2023年创立,也被美国硅谷誉为“来自东方的神秘力量”。
事实上,DeepSeek并非第一次“出圈”。早在半年前,其发布的DeepSeek-V2就因性能达GPT-4级别,但开源、可免费商用、且API价格仅为GPT-4-Turbo的百分之一而引发业内关注。对于为何能做到如此高的性价比,DeepSeek官方解释称,DeepSeek-V2采用了创新的架构,例如注意力机制方面的MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等,以实现具有更高经济性的训练效果和更高效的推理。
正因为在训练效率和成本方面的优势,DeepSeek也是国内最早开启大模型降价的厂商,也是大模型价格战的源头和推动者。在其发布DeepSeek-V2之后,字节、阿里、百度等厂商纷纷跟进降价。同时,DeepSeek也是中国互联网大厂以外,唯一一家储备了万张A100芯片的公司,这为其早期的技术研发提供了坚实的算力基础。
“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”在回应当初为何打响大模型价格战第一枪时,DeepSeek创始人梁文锋表示。这位毕业于浙江大学电子工程系的80后,一直潜心研究技术。据媒体报道,梁文锋在工作中始终保持着低调的作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。
一名人工智能行业资深业内人士向证券时报记者分析称,DeepSeek以200人左右的小团队,且不依靠外部融资,做出了一个有性价比并被全球主流AI界人士所认可的大模型。“一是他们在早期就买了很多算力卡,投入了很多资源做研究;二是他们是做量化的,不像大厂有其他各种各样的盈利需求,也跟他们不构成竞争关系,能更专注于模型开发。”该业内人士表示。

背后的AI“天才少女”引发关注
在DeepSeek-V3爆火之后,背后的AI“天才少女”罗福莉也进入了人们的视野。据媒体报道,小米创始人雷军以千万年薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉,领导小米AI大模型团队。

公开资料显示,罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业。2019年,还在北大读硕士的她在人工智能领域顶级国际会议ACL上发表8篇论文(其中2篇一作),登上了知乎热搜。罗福莉用本人知乎账号回应称,“这次投稿ACL是我近一年的产出,所以我认为自己是付出了足够的努力的,当然也可能也有运气成分加持。”

硕士毕业后,罗福莉先是进入阿里达摩院做人工智能研究,从事预训练语言模型相关的工作,负责阿里达摩院AliceMind开源项目,主导开发了多语言预训练模型VECO。2022年,罗福莉加入幻方量化从事深度学习相关策略建模和算法研究,后又跳槽到DeepSeek担任深度学习研究员,参与研发MoE大模型DeepSeek-V2。
今年5月,在DeepSeek-V2发布以后,罗福莉在知乎上撰文,发表了对于DeepSeek-V2的看法。她表示,“单论DeepSeek-V2模型的中文水平,是真实处在国内外闭源模型的第一梯队”,“外加1元/百万输入tokens的价格,只有GPT-4价格的1/100,性价比之王”。
事实上,罗福莉被重金招入小米,是小米全面发力AI大模型的其中一个动作。2023年4月,小米正式组建了AI实验室大模型团队,并表示将不断挖掘AI相关的用户场景,发挥自身技术优势,并以开放的态度与合作伙伴开拓更多机会。今年11月,小米成立了专门的AI平台部,小米的元老级技术大牛张铎为负责人。张铎本硕毕业于清华计算机系,曾被雷军公开称赞是“小米的大神”,送以“铎神”的称号。
兵马未动,粮草先行。除了招募人才以外,最近,媒体报道称小米正着手搭建自己的GPU万卡集群,并在过去几个月里持续提升算力储备,为大模型研发提供更充分的算力供给。雷军在公开演讲时曾表示,小米做大模型的思路和很多公司不太一样,选择主力突破的是轻量化和本地部署。对于小米这样无论在手机还是造车上都讲究“性价比”的公司而言,如何在烧钱的大模型业务中平衡成本,无疑是雷军考虑的核心问题。而这,或许也是拥有DeepSeek-V2研发背景的罗福莉被雷军看中的原因。
-
“AI界拼多多”刷屏!95后“天才少女”火了,雷军曾开出千万年薪抢人!
最近,中国头部量化私募公司幻方量化旗下专注于AI大模型研究开发的Deepseek(深度求索公司),宣布旗下的全新系列模型DeepSeek-V3首个版本上线并同步开源。DeepSeek-V3是深度求索自研的MoE模型(混合专家大模型)
2025-05-06 13:54:32 -
百度首页 AIGC工具导航 上海财经大学计算机与人工智能学院成立
12月28日,上海财经大学计算机与人工智能学院正式成立,院长由上海财经大学教授陆品燕担任。计算机与人工智能学科发展战略咨询委员会也于当天举行。 据介绍,上海财经大学计算机与人工智能学院将以深厚的理论
2025-05-06 13:29:16 -
人工智能公司索威尔递交招股书 拟赴美上市
人工智能公司索威尔(Sowell)已向美国证券交易委员会(SEC)递交IPO招股书,计划在美国纳斯达克上市,股票代码LHSW。公司专注于机器视觉产品和解决方案,旨在提高跨行业客户的效率和质量。索威尔已获得中国证监
2025-05-06 13:05:24 -
上海财经大学成立计算机与人工智能学院,首任院长陆品燕
中国青年报客户端讯(中青报·中青网记者 王烨捷)12月28日,上海财经大学计算机与人工智能学院成立仪式在该校科研实验大楼举行。上海财经大学党委书记许涛表示,当前面对全球化、数字化、智能化浪潮,成立计算机
2025-05-06 12:35:41 -
年薪百万招不到人,AI工程师都去哪了?
2024年7月的一个晚上,在杭州湖畔创研中心的一个封闭会堂中人头攒动。 台下,二百多名年轻黑客席地而坐,随意地三两交谈。在他们之中,有的是顶刊AI论文的作者,有的是独立开发者,还有的是知名创业者……此刻,他
2025-05-06 12:09:51 -
上海重磅部署,事关人工智能;贵州茅台拟回购30亿-60亿元股份用于注销
宏观新闻 1、中国人民银行发布了《中国金融稳定报告(2024)》。报告指出,实施好适度宽松的货币政策,综合运用多种货币政策工具,保持流动性充裕,使社会融资规模、货币供应量增长同经济增长、价格总水平预
2025-05-06 11:39:53
-
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
AI绘画ComfyUI进阶教学丨Mask遮罩基础运用,IPA+CN+Lora+prompts+遮罩
本期开始正式进入遮罩相关的高级应用,这里我们会尝试为不同组件应用不同区域的遮罩,实现构图、效果的不同区域实现。希望本期内容能对大家有所帮助和启发,最后如果喜欢欧阳的教程就千万不要忘记支持一波啦!!!
2024-12-17 09:48:56 -
如何利用AI技术搞钱_AI赚钱四大变现思路_手把手教学丨上集
AI怎么变现?通常来说,有这么几个大体的思路——人工智能(AI)在各个领域都有广泛的应用,以下是几个比较常见的思路。
2024-12-19 17:15:43 -
安利超强的AI视频剪辑工具,离线,免费,无需配置
给大家分享一款近期制作的AI分词自动剪辑视频的超强工具,助力大家大幅提升视频剪辑生产力!
2024-12-20 16:49:16 -
AIGC基础应用教程丨探索AI在图像放大中的工具使用
当给到的图像素材尺寸太小或者不清晰的时候,有哪些好的AI图像放大的工具可以使用?本期就给大家推荐一些好用的工具
2025-02-06 14:24:28 -
OpenAI推出视觉大模型GPT-4V,为ChatGPT加入眼睛和耳朵丨抖音APP上线方言AI翻译功能丨百度发布首个量子大模型
【AI奇点网2023年9月27日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-04-02 13:48:08 -
导演郭帆:因为引入AI技术,《流浪地球3》剧组将比上一部减少一半人
郭帆表示,“《流浪地球2》现场最多的时候同时有2200名剧组人员在场,“随着AI技术发展,我预计《流浪地球3》现场拍摄可能会减少到只剩下几百人,就能实现万人级别的工作协同。”
2025-04-21 11:38:20 -
2023智源大会启动:OpenAI CEO奥特曼和Midjourney创始人将亮相
据官方消息,第五届北京智源大会将于6月9日在北京召开。本届智源大会聚集了人工智能领域最关键的人物、最重要的机构。
2025-04-24 13:27:30 -
中信建投:端侧AI渐起 关注算力、连接、存储等环节
中信建投研报称,随着AI大模型能力不断迭代增长,模型之间差异在缩小,Meta、字节、小米等巨头开始大力布局端侧AI,抢夺AI Agent入口。2024年潜在的端侧AI爆品出现,AI眼镜成本曲线大幅下探,2025年有望成为其爆
2025-04-29 17:28:33 -
如何让AI绘制的图像高清化丨小白必看的全面科普教程丨附Upscayl使用教程
在最近半年和大家交流 AIGC 相关问题时,最让大家头疼的问题之一就是如何让 AI 绘制的图像更加清晰。受限于服务器或硬件本身的性能,很多时候我们无法一步得到自己满意的图像,而生成拥有高清细节的大图又是每一位 AI 绘画爱好者的追求。
2024-12-17 12:29:00