GPT-5数字母依然翻车,马库斯:泛化问题仍未解决,Scaling无法实现AGI
大模型好不容易学会数r,结果换个字母就翻车了?
而且还是最新的GPT-5。
杜克大学教授KieranHealy表示,自己让GPT-5数了数blueberry里有几个b,结果GPT-5斩钉截铁地回答3个。
抓**是,GPT-5刚发的时候还有网友让它数过blueberry里的r,结果数对了。
虽然博主想到了换掉strawberry,却没成想让GPT-5变得“没有B数”的,竟然不是单词而是字母……
看来香槟还是开得早了亿点点啊(手动狗头)。
越不过的“蓝莓山”
Healy撰写了一篇名为“blueberryhill”(蓝莓山)的博客,展示了他和GPT-5之间针对“blueberry里有几个b”展开的一场“拉锯战”。
除了开头直接提问的结果外,Healy还尝试多次变换提示词策略,结果GPT-5的嘴都是比煮熟的鸭子还硬。
比如让它展示出这些b都是在哪里出现的,GPT-5明目张胆地把开头blue中的b数了两遍。
一看不奏效,Healy接着追问说,把这3个b给我拼出来,拼出来就可以。
结果拼是拼出来了,但是GPT-5还是坚持有三个b,并表示第三个b是第七个字母(实际上是r)。
见GPT-5还是冥顽不灵,Healy干脆直接纠正,告诉它只有两个r,结果纠正了个寂寞,不过这次“第三个b”的位置从第七漂移到了第六。
接下来,Healy直接不说话,直接把blueberry这个词带空格拼写了一遍,可GPT-5依然我行我素,不过这次是把第二个b数了两遍,还振振有词地说这里是“doubleb”。
绞尽脑汁的Healy选择先岔开一下话题,然后回过头来告诉GPT-5只有两个b,但GPT-5还是坚称有三个。
到这里,Healy终于放弃了。
但网友们并没有停下脚步,通过不懈努力终于让GPT-5数对了。
但也不算完全对,因为它狡辩说数成3个是因为“错把词当成了blueberry,其中真的有3个b”。
我们用中文试了一下,结果同样是翻车。
改成数e,同样是回答3个。
不知道是不是受到strawberry里3个r的影响,让大模型对3这个数字产生了执念……
但GPT-5的bug,却不只这一个。
GPT-5翻车合订本
著名悲观派学者、纽约大学名誉教授马库斯(GaryMarcus)发布了一篇博客,整理了网友们吐槽当中GPT-5的各种bug。
比如发布会现场演示的伯努利原理,被网友发现翻车。
没看过或者没印象的话,当时的演示是这样的:
还有国际象棋,GPT-5连基本的规则都搞不清楚,只过了四个回合就出现了非法移动(由于国王在e7处被皇后将军,因此兵不能移动)。
即使是阅读理解,也同样被发现漏洞百出。
在多模态数数场景当中,GPT-5也依然存在惯性思维。
面对被人类P成5条腿的斑马、5个圆环的奥迪、3条腿的鸭子,GPT-5想当然认为它们是正常的斑马、奥迪和鸭子,并据此报出了与图片不相符的数目。
马库斯还表示,就连他的黑粉也不得不承认他说的对。
甚至在网友们的一片声讨之下,OpenAI自己也不得不紧急恢复了被下线的4o模型。
马库斯:Scaling无法实现AGI
除了点名批评GPT-5的“罪状”之外,马库斯也分析了目前大模型“普遍存在的一些问题”。
马库斯展示了一篇来自亚利桑那大学的研究论文,其中指出CoT在训练分布外失效,也就意味着大模型无法泛化。
按照马库斯的说法,这意味着即使在最新的、最强大的模型中,也存在与1998年的神经网络中相同的泛化问题。
马库斯指出,30年未解决的“分布漂移问题”是大模型泛化能力不足的根本原因。
据此马库斯认为,GPT-5的失败不是偶然,而是路线的失败。
他还表示,人们不该寄希望于通过Scaling来实现AGI,Transformer中的Attention也不是AllYouNeed。
最后,马库斯表示,转向神经符号(Neuro-symbolic)AI,才是克服当前生成模型泛化能力不足问题以及实现AGI的唯一真正途径。
参考链接:
https://kieranhealy.org/blog/archives/2025/08/07/blueberry-hill/
https://garymarcus.substack.com/p/gpt-5-overdue-overhyped-and-underwhelming
-
GPT-5数字母依然翻车,马库斯:泛化问题仍未解决,Scaling无法实现AGI
blueberry有几个b?
2025-08-19 09:24:29 -
阿里妈妈、巨量引擎、腾讯广告,谁是当代“AI印钞机”?
阿里妈妈、巨量引擎、腾讯广告,谁是当代“AI印钞机”?
2025-08-19 09:24:27 -
李飞飞押注的「世界模型」,中国自研Matrix-3D已抢先实现了?
昆仑万维Matrix-3D:单图生成可探索3D世界,对标WorldLabs
2025-08-19 09:24:23 -
刚刚,OpenAI内部推理模型斩获IOI 2025金牌,所有AI选手中第一
拿下IMO金牌后,又搞定IOI金牌了
2025-08-19 09:24:21 -
港科大院长深圳造机器人,获亿元融资,招商局领投
戴盟机器人累计融资金额达数亿元,刷新触觉传感领域天使轮融资的最高纪录。
2025-08-18 09:06:23 -
OpenAI惊人自曝:GPT-5真「降智」了,但重现「神之一手」,剑指代码王座
GPT-5智商测试70分争议,路由问题引热议,prompt解锁医学编程神技。
2025-08-18 09:06:15
-
Stable Diffusion怎么图生图_Stable Diffusion图生图界面介绍
Stable Diffusion 是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像
2024-12-30 12:32:26 -
科大讯飞最新AI PPT产品“讯飞智文”全面测评:借助AIGC的能力,分分钟交付一份精美的年终PPT
不久前,科大讯飞上线的免费 PPT 生成“神器”——讯飞智文,就能极大地提高我们制作 PPT 的效率,将我们从繁杂的 PPT 苦海中解脱出来。
2024-12-13 19:46:47 -
我国人工智能核心产业规模不断提升 注册用户超6亿
工业和信息化部12日表示,截至目前,我国生成式人工智能服务大模型的注册用户超过6亿。 工业和信息化部总工程师 赵志国:我国人工智能核心产业的规模在不断提升,企业数量超过了4500家。完成备案并上线为公众
2025-06-25 11:30:12 -
OpenAI发布GPT-4o mini丨知名大模型迎战2024高考全科成绩出炉丨苹果否认使用未授权YouTube视频训练AI
【AI奇点网2024年7月19日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-14 17:45:35 -
微软推出Phi-3-mini迷你模型:苹果iPhone端侧就能运行,38亿参数规模就媲美GPT-3.5性能
Llama 3发布刚几天,微软就出手截胡,发布的Phi-3系列小模型,手机上能本地运行的最佳开源模型,已经做到ChatGPT(GPT-3 5)的水平。
2025-01-31 19:29:08 -
魅族发布AI操作系统Flyme 10.5:搭载基于Flyme AI大模型的Aicy人工智能助理
2023 魅族秋季无界生态发布会上,正式发布了搭载全新 AI 人工智能助理 Aicy 助手的 Flyme 10 5 系统。搭载了全新的Flyme AI大模型加持的Aicy。
2025-03-26 14:17:19 -
OpenAI视觉大模型GPT-4V可“操作”手机完成复杂交互指令:无需预训练
最近的一项研究发现:无需任何训练,OpenAI的视觉大模型GPT-4V就能直接像人类一样与智能手机进行交互,完成各种指定命令。
2025-03-28 13:56:45 -
紧随百度讯飞之后,360聊天机器人“360智脑”APP在苹果App Store上架
7月24日报道,360旗下大模型产品“360智脑”App已正式上线苹果应用商店。
2025-04-09 13:19:06 -
阿里AI视频生成模型DreaMoving_人脸图+提示词就能让纸片人动感起舞,随心生成服装与背景
阿里又整活了!阿里巴巴AI团队最新的一项AI视频生成研究课题——项目名称叫「DreaMoving」,主打的就是让任何人、随时且随地地跳舞。
2025-04-28 18:06:27 -
上海重磅部署,事关人工智能;贵州茅台拟回购30亿-60亿元股份用于注销
宏观新闻 1、中国人民银行发布了《中国金融稳定报告(2024)》。报告指出,实施好适度宽松的货币政策,综合运用多种货币政策工具,保持流动性充裕,使社会融资规模、货币供应量增长同经济增长、价格总水平预
2025-05-06 11:39:53