DeepSeek V3.1 Base突袭上线,击败Claude 4编程爆表,全网在蹲R2和V4
就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。
本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。
综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:
编程能力:表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。
性能突破:V3.1在Aider编程基准测试中取得71.6%高分,超越ClaudeOpus4,同时推理和响应速度更快。
原生搜索:新增了原生「searchtoken」的支持,这意味着搜索的支持更好。
架构创新:线上模型去除「R1」标识,分析称DeepSeek未来有望采用「混合架构」。
成本优势:每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。
值得一提的是,官方群中强调拓展至128K上下文,此前V3版本就已经支持。
对于这波更新,大家的热情可谓是相当高涨。
即便还未公布模型卡,DeepSeekV3.1就已经在HuggingFace的趋势榜上排到了第四。
DeepSeek粉丝数已破8万
看到这里,网友们更期待R2的发布了!
混合推理,编程击败Claude4
这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的「R1」去掉了。
同时,与V3-base相比,DeepSeekV3.1新增了四个特殊Token:
(id:128796)
(id:128797)
(id:128798)
(id:128799)
对此,有推测认为,这可能暗示推理模型与非推理模型的融合。
在编程方面,根据网友曝出的结果,DeepSeekV3.1在AiderPolyglot多语言编程测试中拿下了71.6%高分,一举击败了Claude4Opus、DeepSeekR1。
而且,它的成本仅1美元,成为非推理模型中的SOTA。
最鲜明的对比,V3.1编程性能比Claude4高1%,成本要低68倍。
在SVGBench基准上,V3.1实力仅次于GPT-4.1-mini,远超DeepSeekR1的实力。
在MMLU多任务语言理解方面,DeepSeekV3.1毫不逊色于GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1与之有一定的差距。
一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeekV3.1理解力明显提升。
一手实测
第一时间,我们对V3.1进行了实测,首先是此次模型更新的重点:上下文长度。
假设对于中文而言,1个token≈1–1.3个汉字,那么这128Ktokens≈100,000–160,000汉字。
相当于整本《红楼梦》正文(约80–100万字)的1/6–1/8,或者一篇超长博士论文/大部头学术专著。
实际测试也很准确,DeepSeek告诉我们它只能阅读差不多9%,也就是大约十分之一。
由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样?
在128K上下文测试中,DeepSeek-V3.1输出速度相比以往获得较大提升,并且在工程上做了一些优化。
此次更新,DeepSeek重点强调了对上下文的支持。
整个活,给DeepSeek-V3.1上点压力,让它根据「梦」这个字,输出尽可能多的内容,尽量达到上下文极限。
不过最后,差不多只输出了3000字左右,模型就停止了输出。
再来看下推理能力。
经典的9.11和9.9比大小问题,两种询问方式都能正确做答。
这次更新的一大体感还是速度变快了很多。
最后再来看看编程能力。
DeepSeek的上一个模型是R1-0528,主打的是编程能力。
看看这次V3.1是否有更大的提升。
最终结果只能说,打个80分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。
并且和R1-0528的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。
以下是开启思考模式后的结果,你觉得哪个更好?
接下来,看看DeepSeekV3.1能否复刻出GPT-5发布会上的法语学习小程序。
我们再来让V3.1画一个自己的SVG自画像,两种效果着实有些抽象。
参考资料:HYX
https://weibo.com/2169039837/Q0FC4lmeo
https://x.com/karminski3/status/1957928641884766314
https://github.com/johnbean393/SVGBench/
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
-
DeepSeek V3.1 Base突袭上线,击败Claude 4编程爆表,全网在蹲R2和V4
DeepSeekV31新版正式上线,上下文128k,编程实力碾压Claude4Opus,成本低至1美元。
2025-08-27 09:11:30 -
辛苦创作出来的内容,被AI一把“偷走”?全球新闻网站一年损失6亿访问量,百万粉丝博主:生计受到严重威胁
维权还是合作?AI时代下内容机构的“流量博弈”
2025-08-27 09:11:17 -
离谱,马斯克的 AI 教人暗杀马斯克?Grok 37 万条聊天记录意外泄露
截至发稿时,xAI尚未就此事作出回应,但这事给我们的教训就是,在互联网上,应该永远假设你的隐私信息在「裸奔」。
2025-08-27 09:11:12 -
字节突然开源Seed-OSS,512K上下文碾压主流4倍长度,推理能力刷新纪录
Apache-20开源协议,可以免费用于学术研究和商业部署
2025-08-27 09:11:10 -
Meta被曝已暂停AI招聘
据业内人士透露,在花费数月时间大手笔招揽了50多名行业尖端的AI研究人员和工程师后,Meta目前已冻结了其人工智能部门的招聘。
2025-08-26 09:21:46 -
刚刚,GPT-5 Pro自证全新数学定理,OpenAI总裁直呼颠覆,大佬们集体转发
希望AI在拓展人类认知边界的同时,人类也能破解大模型的秘密。
2025-08-26 09:21:37
-
微软Bing聊天机器人现已加入Chrome和Safari插件,但仍有字数与发送次数限制
微软的人工智能 Bing 聊天机器人现在可以在谷歌 Chrome 和苹果 Safari 浏览器上使用了,用户只需访问 Bing com 网站,就可以和该聊天机器人进行交流,但目前仍有字数与发送次数限制。
2025-04-09 15:08:19 -
字节跳动公测首个AI聊天机器人App“豆包”丨快手首个大语言模型“快意”亮相丨腾讯:下半年发布自研基础大模型
【AI奇点网2023年8月21日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-04-04 15:01:22 -
国内版 “苹果vision pro” 发布! 中兴通讯发布nubia Neo Air智能眼镜
中兴通讯在2023年上海世界移动通信大会上正式发布了nubia Neo Air智能眼镜,这款全球首款轻型双目屈光一体化GPT无线AR智能眼镜引入了与GPT同类AIGC算法,实现了语音指令、即时问答和智能交互等功能,为用户提供全场景的智能助理。
2025-04-15 14:05:26 -
苹果WWDC 2023开发者大会上只字未提“AI”,库克和他的伙伴有着自己的独特思考
最近科技圈最令媒体人“困惑”的一件事,莫过于全球科技领军巨头苹果公司,竟然对AI人工智能“不闻不问”。
2025-04-24 11:23:24 -
物理AI如何变革机器人产业?英伟达与宇树、银河通用创始人闭门会全实录
AI与机器人协同进化,迈向下一个科技时代
2025-08-17 07:05:32 -
AI正在掏空大脑,思想沦为残废,未来只分AI的「主人」和「奴隶」
AI分化:驾驶员主动驾驭,乘客思维退化
2025-08-18 09:06:03 -
AI绘画ComfyUI进阶教程丨插件IPAdapter的详细使用教程,风格模仿,换脸全靠它
哈咯大家好,本期正式给大家带来进阶部分的插件讲解教程,虽然很多朋友一直在用IPA但可能很多朋友还不太了解其结构,希望这期关于ipa用法的教程能对大家有所帮助吧!
2024-12-17 22:49:30 -
midjourney新功能_style tuner应用教程_MJ最新教程
MJ的新功能style tuner,终于可以训练自己的模型风格了,在我快速模式恢复之后立马尝试了一遍,操作步骤简单,比SD容易上手太多,我来代练一遍,大家跟上节奏
2024-12-19 06:34:05 -
通义听悟如何管理我的记录_通义听悟管理我的记录使用方法
通义听悟支持创建文件夹,分类管理记录;可以对记录进行收藏、移动、重命名等操作。
2024-12-27 12:45:31 -
WAIC落幕:国产大模型大厂拼落地,中厂显焦虑丨月之暗面上线Kimi浏览器插件丨中国是AI论文发表最多的国家
【AI奇点网2024年7月9日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-16 10:10:48






