MLLM集体翻车,缺乏婴儿级常识,业界首个核心认知基准发布,LeCun转赞
当前大模型在最基础的感知、物理常识等12项核心认知上普遍落后人类10-30%,且越大的模型越容易靠「背答案」糊弄,真正掌握核心知识的极少。团队公开首个系统评测框架和题库,呼吁先把「三岁孩子都懂」的常识打牢,再谈更高层的智能。
最近,一篇被YannLeCun转发的ICML2025研究结果显示,在CoreCognition基准1,503题大考中,230个主流模型纷纷暴露对于世界模型的「常识性盲区」。
再大的多模态语言模型,也缺少人类婴儿就有的「核心知识」地基,即使高层推理再花哨,也架不住地基塌陷。
从下面这张震撼的对比表中,我们可以看到模型在12项「幼儿园」测试中,集体翻车。
ObjectPermanence:人类88.1%,最强模型InternVL3-78B仅74.1%,差距14%;
PerspectiveTaking:人类91.99%,最强模型QVQ-72B-Preview也仅83.25%,差距9%;
IntuitivePhysics:人类91.52%,最强模型GPT-o1仅75.45%,差距超16%,各大模型普遍落后10-30%不等。
来自加州大学圣地亚哥分校、约翰霍普金斯大学、埃默里大学、北卡罗来纳大学教堂山分校、斯坦福大学、卡内基梅隆大学等机构的研究人员联合认知科学领域科学家,花费一年时间构造并开源了业界首个核心认知基准CoreCognition。
其中包含1,503道精选题目从感知运动到形式运算12项核心能力,每个概念95+样本,全面覆盖人类认知各个发展阶段。
论文链接:https://arxiv.org/pdf/2410.10855项目网站:https://williamium3000.github.io/core-knowledge/开源数据集:https://huggingface.co/datasets/williamium/CoreCognition
此外,联合团队还维持了三个高标准:
判别性(缺乏目标核心知识的模型必然选错答案)
最小混淆(避免依赖物体识别等无关能力)
最小文本捷径(答案不能仅通过文本推导获得)
12名标注员协作完成数据集构建,经过双轮交叉验证和20人AmazonMechanicalTurk人工校验。
230个模型大考,涵盖GPT、Claude、Qwen等主流商业模型及开源模型;11种提示策略,全方位测试模型真实能力。
据悉,团队不仅构建了均衡答案位置和混合答案解析的完整评测基础设施,而且还计划开源一个支持这230个模型的MLLM统一测试框架,亮点是极易上手。
只需几行代码就能复现本文章及其他热门数据的全部实验结果!
「概念黑客」双重盲盒,捅破捷径学习的遮羞布
更绝的是团队独创的ConceptHacking方法,专门用来识破模型是「真懂」还是「假懂」
核心思路:给每道题做一个保持所有无关细节完全相同,只把核心概念反转的「孪生题」
例如其中的PerspectiveTaking测试
原版题:图像顺时针旋转90°后,看起来像鸭子还是兔子?→测试真正的perspectivetaking转换理解
孪生版:同样的旋转操作,但正确答案相反→测试是否只是在套用固定模板
人类表现:两题都答对(真正理解空间旋转后的形状变化)
模型表现:原版答对,孪生版直接翻车(暴露对「鸭兔错觉」的刻板印象依赖)
把MLLM的「高级智能」拆解标题
Finding1:核心知识缺失——高层推理没地基
实验里,模型在低阶任务上集体表现不佳。这说明它们的高级推理/感知没有扎根于人类婴幼儿就具备的核心知识。面对不同表述方式和背景变化时无法表现出robust且稳定高水平的能力。
Finding2:能力之间「各玩各的」
关联性矩阵显示了模型能力间的「分裂」现象:低阶能力如Permanence、Continuity与对应高阶能力如PerspectiveTaking、Conservation几乎零相关。人类认知发展是下层搭积木,上层盖高楼,层层递进;
模型现状是高楼直接悬空,缺乏发育链条支撑。这种能力间的断裂意味着任何基础认知的扰动,都可能让整个「智能大厦」瞬间散架。
Finding3:核心知识在更多任务上管用
统计发现,除了Perspective和IntuitivePhysics,10项核心能力得分与26个公开基准(除了偏向检验OCR能力的ChartQA)强正相关。
换句话说:核心知识越好,高层任务越稳。
而作为人类高级推理的基础Perspective和IntuitivePhysics能力,在基准测试评估结果中展现的低相关性,与我们之前在关系矩阵中观察到的结果一致,正是核心知识缺陷的体现。
Finding4:坏消息——参数多目前并不能「长出」核心知识
把219个模型从1B拉到110B,低阶能力曲线几乎一条水平线;perspectivetaking甚至随规模下降。
过往「大力出奇迹」的经验,在核心知识面前直接失灵。一个尚未解决却又可能帮助构建世界模型的关键课题是从「如何scale」变成「如何scale出core-knowledge」。
Finding5:规模越大,捷径越香
ConceptHacking结果显示:大模型在孪生题上的表现相对小模型整体并无提升,甚至有些更加糟糕,说明scaling无法解决在核心知识问题上的「捷径依赖」。
直观感受:模型不是「长大变聪明」,而是长大变滑头。
通过定量分析发现,模型可以分为四类:
核心知识型:控制题和操作题都答对(接近人类,但数量极少)
捷径依赖型:控制题对,操作题错(最常见,包括GPT-4o等明星模型)
核心缺陷型:控制题就答错,操作题表现无意义
盲猜型:两题都靠运气
研究启示,认知指令可带来短期提升
推理增强也救不了(10/12任务无提升):问题不在「用没用好」,而在「底子有没有」,「预训练缺失」仍是最大嫌疑。
有趣的是,团队发现认知指令提示——直接告诉模型「这是perspectivetaking任务」等概念描述,可瞬间带来6%的性能提升,表明模型内部可能已经分布式地存储了相关知识,但缺乏有效的检索和调用机制。
然而,这种方法在实际应用中局限性明显,因为现实场景中模型不太可能获得如此明确的概念指导。
更令人担忧的是,这种核心知识缺陷可能在关键应用中带来风险:比如自动驾驶中对遮挡物体的理解偏差,或者机器人在复杂场景下的物理常识判断失误。
重新思考AI发展路径
从「写诗作画」到「常识翻车」,这项研究再次提醒我们:真正的智能,不只是参数规模,更是对世界最朴素、最基础的理解。
当我们惊叹于大模型在高阶任务上的神奇表现时,是否忽略了连三岁孩子都懂的常识?忽略了正在悄悄放大的低阶核心知识空洞?
规模、推理、提示,都只是裱糊匠——地基没打好,楼越高越危险。
或许,这正是我们重新思考AI发展路径的契机:不是一味追求更大、更强,而是回到最初——那些让人类智能如此稳健可靠的核心认知能力。
参考资料:
https://arxiv.org/pdf/2410.10855
-
MLLM集体翻车,缺乏婴儿级常识,业界首个核心认知基准发布,LeCun转赞
重新思考AI发展路径
2025-08-05 10:46:34 -
对话纵贯创新陈逸奇:解决割草机器人量产阵痛,设计先行是核心、供应链匹配需前置|硬氪专访
“众筹不交付是劣币驱逐良币,硬件创业者要在乎自己的羽毛。”
2025-08-05 10:46:32 -
国内首个,MiniMax大模型通过人机辩论图灵测试
奇葩说辩手陈铭与MiniMax大模型辩手展开辩论,现场有超过30%的观众被AI“迷惑”了,根据“图灵测试”规则,测试通过。国内首个通过人机辩论图灵测试大模型
2025-08-04 09:10:30 -
“为我点咖啡的,竟然是辆电动车”
属于人工智能的大时代,已经到来。
2025-08-04 09:10:28 -
预测太阳磁暴全球最强!首个空间天气链式AI预报模型亮相WAIC
就在一颗通信卫星以第一宇宙速度飞过我们头顶的几分钟时间里,上百万人正借助由它所搭建的网络去链接这个世界,而实际上,这样的卫星有成千上万颗。当我们使用方便快捷的卫
2025-08-04 09:10:27 -
阿里巴巴、渣打银行战略合作:一切为了AI
7月29日消息,近日,渣打集团、阿里巴巴集团正式签署战略合作备忘录,双方将依托阿里云的AI技术,加速推进金融服务与AI技术的深度融合。渣打创立于1853年,已有170多年历史,是一家领
2025-08-04 09:10:25
-
本科就在人工智能顶级会议发表论文,他从江大直博香港科技大学
他大一便加入实验室,发表9篇外文论文,其中1篇人工智能顶级会议论文,3篇SCI期刊论文;他还领衔或参与申请2项国家发明专利,13项软件著作权、成果转让达十余万元;他还是武汉大学、香港大学、伊利诺伊大学厄巴纳
2025-05-25 14:42:49 -
理想汽车发布多模态AI大模型Mind GPT:CMMLU大模型基准测评榜单斩获第一
12月11日下午,理想汽车举行理想汽车智能软件发布会,这是理想汽车诞生以来,最大的一次软件版本发布活动。该公司宣布其最新的OTA 5 0版本引入了自家研发的多模态认知大模型Mind GPT。
2025-04-29 09:45:10 -
国内“AI声音侵权”第一案在京开庭审理:微软、出门问问进入被告席,「AI孙燕姿们」进入司法深水区,要慌了…
12月12日,北京互联网法院首次组成五人合议庭,依法公开审理全国首例「AI声音侵权案」。微软、出门问问等AI科技企业涉嫌侵权成被告。
2025-02-24 17:58:31 -
首批ITU-T AICP评估结果重磅发布 | 阿里云人工智能平台PAI率先通过国际标准评估!
随着智能算力逐步取代通用算力成为算力结构最主要构成,传统的通用云计算服务逐步升级成为服务于人工智能技术和应用发展的智算云,打造集智能算力、通用算法和大模型开发平台于一身的新型人工智能云平台成为云服
2025-05-25 13:06:49 -
张军出席第19届亚太首席大法官会议并作专题发言表示 深化人工智能领域的司法交流合作 努力为人类司法文明进步作出新贡献
张军出席第19届亚太首席大法官会议并作专题发言表示 深化人工智能领域的司法交流合作 努力为人类司法文明进步作出新贡献 当地时间10月12日至13日,第19届亚太首席大法官会议在马来西亚吉隆坡举办
2025-06-25 11:06:12 -
我国人工智能核心产业规模不断提升 注册用户超6亿
工业和信息化部12日表示,截至目前,我国生成式人工智能服务大模型的注册用户超过6亿。 工业和信息化部总工程师 赵志国:我国人工智能核心产业的规模在不断提升,企业数量超过了4500家。完成备案并上线为公众
2025-06-25 11:30:12 -
OpenAI发布GPT-4o mini丨知名大模型迎战2024高考全科成绩出炉丨苹果否认使用未授权YouTube视频训练AI
【AI奇点网2024年7月19日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-14 17:45:35 -
OpenAI深夜发动价格战_ChatGPT 4omini价格下跌
GPT-4o mini深夜忽然上线,OpenAI终于开卷小模型!每百万输入token已达15美分的超低价,跟GPT-3相比,两年内模型成本已降低99%。Sam Altman惊呼:通往智能的成本,已变得如此低廉!另外,清华同济校友为关键负责人。
2025-01-15 09:04:34 -
微软发布手机端免费AI绘图工具Microsoft Designer:支持修图、生成海报贺卡壁纸
微软面向苹果iOS应用商店、谷歌Google Play上架Microsoft Designer图片编辑应用,让iPhone和安卓手机用户体验AI修图等功能。
2025-01-15 10:18:25 -
小米AI助理“小爱同学”接入字节跳动豆包大模型,将用于小米旗下所有「人车家」终端
火山引擎官方发布公告称,近日与小米公司旗下的人工智能助手“小爱同学”与火山引擎达成合作,基于豆包大模型为用户带来更智能的 AI 交互体验。
2025-01-20 09:07:19