DeepSeek再爆火 AI竞赛崛起中国创新势力

2025-05-04 来源：AI图库吧

DeepSeek再次爆火。

近日，国内AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3，同时宣布开源。在多项基准测试中，V3的成绩超越了主流开源模型，并和世界顶尖的闭源模型不分伯仲。

更重要的是，V3的训练成本极低，仅为GPT-4o的二十分之一；售价也低，输入+输出价格约为GPT-4o的十分之一。不过其目前不支持多模态输入输出。

DeepSeek是量化资管公司幻方旗下企业，成立于2023年7月。

被冠以“AI界高效低价典范”的DeepSeek，给当前的人工智能技术与发展路径提供了一个新的方向，贡献了AI竞赛中的中国力量。

V3不仅在人工智能界产生轰动效应，也因它的母公司是知名量化基金公司，而在资本市场引发热烈讨论。

另据报道，近期小米正在搭建GPU万卡集群，雷军亲自以千万年薪挖来了DeepSeek-V2关键开发人员之一的95后罗福莉，后者被誉为“AI天才少女”。

DeepSeek的“暴力美学”

多个实测表明，数学基准（MATH 500）和AIME 2024测试方面，V3超越了当前国际主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o；代码能力（Codeforces 基准），比国外主流大模型高出约30分；软件工程（SWE-bench Verified）和知识问答方面，略逊于Claude-3.5-Sonnet。

因此，DeepSeek的技术论文自豪地宣称，“综合评估表明，DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型，特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型，并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

更重要的是，这一成就，是在极低的训练成本下取得的。

DeepSeek在其53页的技术论文披露：“我们的预训练阶段在不到两个月的时间内完成，成本为2664K GPU小时。结合119K GPU小时的上下文长度扩展和5K GPU小时的后训练，DeepSeek-V3的完整训练成本仅为2.788M GPU小时。假设H800 GPU的租金为每GPU小时2美元，我们的总训练成本仅为557万美元。”

Anthropic首席执行官达里奥·阿莫迪此前透露，GPT-4o的模型训练成本约为1亿美元。而仅仅是训练一个7B的Llama 2，就要花费76万美元。

也就是说，DeepSeek-V3的训练成本仅为同性能模型的十几分之一。这让整个AI界都为之震惊。

据报道，仍处于研发过程中的GPT-5，至少已进行过两轮训练，每轮训练耗时数月，仅一轮计算成本就接近5亿美元。一年半过去，GPT-5仍未问世。这意味着，新一代通用大模型的训练成本已达到十多亿美元甚至更高。马斯克旗下的xAI刚完成60亿美元融资，重要开支之一是将数据中心Colossus的规模扩大一倍，GPU数量达到20万颗。

按照这种训练路径，未来三年内，AI大模型的训练成本将上升至100亿美元甚至上不封顶。正是在这种背景之下，一段时间以来AI界产生了对Scaling law的质疑。

GPT-5难产，OpenAI转向了另一条发展路径：推理模型。并且很快产生成果：令人惊艳的o1推理模型，以及刚发布的o3推理模型。而o3的卓越表现，让部分专家惊呼，在前往agi的路上已经没有了障碍。

人工智能初创公司深受启迪，并紧紧跟随。前不久刚从硅谷考察回来的零一万物创始人李开复说，过去大家觉得预训练做好就够了，一年以后（o1出现后）发现Post train（后训练）也同样重要。他透露说，很多AI公司都在向推理模型方面发展，5个月以后会有不少类似o1模型的能力出现在各个模型公司，包括零一万物，都在往o1方向狂奔。

但DeepSeek-V3的出现，提供了新的可能。更短的时间，更高的效率，更低的成本，达到同等的水平，通用大语言模型的发展路径选择上，贡献了“中国版本”。

新的变化已经发生

事实上，2024年5月6日，DeepSeek发布DeepSeek-V2开源MoE模型，就以其高效性能在全球AI界掀起了一波热度。而其API接口价格与同类产品相比断崖式定为每百万tokens输入1元、输出2元（32K上下文），仅为GPT-4-Turbo的近百分之一。

“价格屠夫”的杀入，令智谱AI、字节跳动、阿里云、百度、腾讯云旗下大模型随后不得不跟进降价。而且腾讯和百度宣布几款大模型产品免费。虽然有人将DeepSeek-V2称为“AI界的拼多多”，但这个比喻不太恰当，因为二者几乎没有共性。

DeepSeek-V3的API定价提高到输入2元/M tokens，输出为8元/M tokens（45天的价格优惠期后），虽然比V2大幅上涨，但也只相当于Claude-3.5-Sonnet费用的1/53，后者每百万tokens输入3美元、输出15美元。

根据记者近两天对AI从业者的采访，DeepSeek-V3的出现，为业界提供了新的启发。

其一，大模型研发，存在多种可能的发展路径。

ChatGPT走的是大参数、大算力、大投入的路子，对算力和资金的要求极高，这种资源消耗是绝大多数创业公司无法支撑的。即使是OpenAI、Anthropic融资较丰沛的公司，也面临投资回报的商业化难题。

推理模型是另一条路子。o1、o3的成果，证明这条路也是可行的。但同样，它也是建立于相对高昂的算力和资金成本基础上，尤其是算力。

DeepSeek-V3是第三条路径。与当前大模型训练动辄要求万卡集成相比，它只用2000张A100 GPU训练，就实现了与GPT-4o和Claude-3.5-Sonnet几乎等效的成果，不能不令人敬佩。

一位在硅谷从事AI研究的华人工程师告诉21世纪经济报道记者，不排除还有更多的路径选择，比如V3的MLA架构、MoESparse结构与o3的推理能力相结合，可能产生新的大模型范式。如果实现，那将是令人惊异的。

其二，人工智能竞争，中国不仅仅是跟随者，而是正在大幅提升创新能力。

其实V2发布时，硅谷就惊讶地称之为“来自东方的神秘力量”。DeepSeek创始人梁文锋2024年7月在接受媒体采访时说，硅谷习惯于将中国AI公司视为follow的角色，当一个中国公司以创新贡献者的身份，加入到他们游戏里去，而且表现优异时，他们就很震惊。

梁文锋认为，更多的投入并不一定产生更多的创新，否则大厂可以把所有的创新包揽了。研究和技术创新将永远是DeepSeek第一优先级。值得注意的是，根据业内专家测算，DeepSeek在V2、V3上并不亏钱。

V3获得硅谷一批知名AI大佬的点赞。Lepton AI创始人、阿里巴巴原副总裁贾扬清表示，DeepSeek是智慧和实用主义的体现：在有限的计算资源和人力条件下，通过聪明的研究产生最好的结果。这是一句相当中肯的评价。

无独有偶。宇树科技近日发布最新的Unitree B2-W机器狗产品视频：托马斯全旋、侧空翻、360°跳跃转体、2.8米凌空飞跃，甚至能驮着一名成年男子稳步行走。这几天，技术讨论园区里到处可见对这家前沿中国机器人企业的欢呼声，有评论称其技能足以“吊打”当今最先进的机器人公司波士顿动力。上周还在A股市场掀起了一阵“宇树科技概念”上涨潮。

其三，创新从来不是单维度、单向度的，AI颠覆式创新正在成为可能。

研发出ChatGPT的OpenAI确实了不起，它开启了人工智能的新一轮浪潮。但OpenAI也不是神，也有发展方向的障碍，有融资的难题，有路径选择的犹豫。

过去两三年，AI界一个流行的看法是，如果说硅谷企业擅长从0到1，那我们则擅长从1到10，因为中国有宽广的应用市场。但梁文锋认为，当前阶段仍是AI技术创新的爆发期，而不是应用的爆发期。

从理性的角度，需要承认我们与OpenAI、Anthropic、DeepMind这些世界先进AI公司仍存在较大的差距。比如，即使是代表闭源大模型最前沿水平的V3，多项性能表现与GPT-4o相近，那也是后者7个月前的技术水平；而OpenAI这几个月已连续推出o1、o3这类新的“变异”物种。更何况，其他大多数的模型产品，放在多语言、多模态的国际视野看，差距要更大。

但这一轮人工智能浪潮之所以更加令人期待，就是因为，它带来的革命性想象力甚至要超越互联网之于传统经济的变革力量。正如梁文锋所说，中国产业结构的调整升级，会更依赖硬核科技的创新。在半导体、大模型等领域，远未触达技术天花板，前所未有的机会在等待着中国企业，那些带来AI颠覆性创新产品或方案模式的公司，就非常可能成为下一个伟大的企业。

前述硅谷华人工程师感慨地说，再伟大的企业，都不敢止步不前，坐享其成。

5年前，谁会想到，英特尔会沦落到传闻要被收购的命运？而今天别看英伟达如日中天、GPU供不应求，但如果量子芯片大规模商用的时间表大大缩短，或者像V3这样不再依赖于万卡集成做训练研发，而它继续固守原有发展路径，那么所谓的“英伟达泡沫”提前破灭也是完全可能发生的。

“无限之海——沉浸式AI数字艺术展”亮相西安

最后一页