在对AI“审美疲劳”中,奇点悄悄来了……
自生成式AI爆火已有两年,而近期进展似乎不尽人意,大模型鲜有突破性创新,应用层面也未出现杀手级应用,资本市场对“泡沫论”和估值过高争议不断……人们仿佛对AI已经“祛魅”,AI发展真的变慢了吗?
在质疑和期待声中,周五“AI领头羊”OpenAI发布了一个名为MLE-bench的基准测试,专门用来测试ai agent的机器学习工程能力,建立起一个衡量大模型机器学习能力的行业标准。
而这一标准的建立正是在o1亮相之后,上月OpenAI甩出一记重大更新,推理能力超越人类博士水平的o1系列模型面世,实现大模型在推理能力上的一次飞跃。
测试结果显示,在MLE-bench的基准测试下,o1-preview在16.9%的竞赛中获得了奖牌,几乎是第二名(GPT-4o,8.7%)的两倍,是Meta Llama3.1 405b的5倍,也是claude 3.5的2倍。

o1模型还代表了大模型领域新范式的突破——开启推理阶段新Scaling Law。
AI领域的Scaling Law(缩放定律)规则,一般是指随着参数量、数据量和算力的增加,大模型的性能能够不断提高。然而,毕竟数据是有限的,AI出现越训练越傻的迹象,Pre-Training(预训练)带来的scaling up边际收益开始递减。
o1在很大程度上突破这一瓶颈,通过post training(后训练)的方式,增加推理过程和思考时间,同样明显提升了模型性能。
相对于传统的预训练阶段scaling Law,o1开启推理阶段新Scaling Law,即模型推理时间越长,推理效果会更好。随着o1开启大模型领域范式创新,会引领AI领域研究重点的转向,行业从“卷参数”迈入“卷推理时间”的阶段,MLE-bench的基准测试正体现了这一衡量标准的转变。
随着大模型推理性能飞跃,芯片算力能力也将相应地升级,黄仁勋在9月的T-Mobile大会上,直接预告算力提速50倍,把o1模型的响应时间从几分钟缩短到几秒:
最近,Sam提出了一个观点,这些AI的推理能力将变得更加聪明,但这需要更多的算力。目前,在ChatGPT中的每个提示都是一个路径,未来将在内部有数百个路径。它将进行推理,进行强化学习,试图为你创造更好的答案。
这就是为什么在我们的Blackwell架构将推理性能提高了50倍。通过将推理性能提高50倍,那个现在可能需要几分钟来回答特定提示的推理模型,可以在几秒钟内回应。因此这将是一个全新的世界,我对此感到兴奋。

有分析将其类比为《思考,快与慢》里的系统二:
系统一:无意识地快思考,依赖于直觉和经验,快速做出反应,例如刷牙、洗脸等动作。
系统二:深思熟虑,带有逻辑性地慢思考,例如解决数学题或计划长期目标等复杂的问题。
o1模型像是系统二,在回答问题前会进行推理,生成一系列思维链,而之前的大模型更像是系统一。
通过思维链式地拆解问题,在解答复杂问题过程中,模型可以不断验证、纠错,尝试新策略,从而显著提升模型的推理能力。
o1模型另一个核心特征是强化学习,可以进行自主探索、连续决策。正是通过强化学习训练,大模型学会完善自己的思考过程,生成思维链。

强化学习在大模型中的应用,是指智能体学习在环境中采取行动,并根据行动结果获得反馈(试错和奖励机制),从而不断优化策略。而之前的大模型预训练采用的是自监督学习范式,通常是设计一种预测任务,利用数据本身的信息训练模型。
简而言之,以前的大模型是学习数据,o1更像是在学习思维。
通过强化学习和思维链的方式,o1不仅在量化的推理指标上有了显著提升,在定性的推理可解释性上也有了明显改善。
不过,o1模型只是在特定任务上取得了突破,在文本生成等偏文科向领域并不具备优势,而且o1只是将人的思维过程展现出来,尚不具备真正的人类思考和思维能力。
-
在对AI“审美疲劳”中,奇点悄悄来了……
自生成式AI爆火已有两年,而近期进展似乎不尽人意,大模型鲜有突破性创新,应用层面也未出现杀手级应用,资本市场对“泡沫论”和估值过高争议不断 人们仿佛对AI已经“祛魅”,AI发展真的变慢了吗? 在质疑和
2025-06-26 14:20:40 -
人工智能何以成为今年诺奖“大赢家”
2024年诺贝尔三大科学奖项中,两大奖项与人工智能研究相关,先是物理学奖颁给了曾获图灵奖的机器学习先驱,紧接着化学奖也将一半颁给了“程序员”。 不仅诺奖得主在接到获奖电话时表示大感意外,就连诺贝尔奖官方
2025-06-26 13:56:40 -
“AI找人才快了30倍”,猎头也要被AI取代了吗?
随着AI技术的不断成熟和应用场景的拓展,人力资源服务业也正在受到AI的影响 10月11日,以“颠覆还是创新——探讨AI对人力资源服务行业的影响”为主题的2024年第四季梅园论剑活动在上海静安举办,共同探讨AI对人力资源
2025-06-26 13:32:40 -
超过16万种!我国科学家通过人工智能发现更多RNA病毒
10月9日,中山大学医学院施莽教授团队与阿里云李兆融团队在《细胞》(Cell)杂志上发表论文称,人工智能技术应用于病毒鉴定后,报告了180个超群、超过16万种全球RNA病毒,发现了传统方法未能发现的病毒“暗物质”。
2025-06-26 13:08:41 -
诺贝尔奖将AI for Science推上风口,这个科研范式改变了什么?
在2024年诺贝尔物理学奖与化学奖接连发布后,比起这两个领域更兴奋的是人工智能领域的从业者与关注者。 10月8日,瑞典皇家科学院宣布,2024年诺贝尔物理学奖被授予美国普林斯顿大学教授约翰·霍普菲尔德(John
2025-06-26 12:44:40 -
苹果研究人员质疑 AI 的推理能力:简单数学问题稍作改动就会答错
近年来,人工智能(AI)在各个领域取得了显著的进展,其中大型语言模型(LLM)能够生成人类水平的文本,甚至在某些任务上超越人类的表现。然而,研究人员对 LLM 的推理能力提出了质疑,他们发现这些模型在解决简
2025-06-26 12:20:40
-
AI换脸工具FaceFusion使用教程_AI换脸工具FaceFusion怎么用_AI换脸工具推荐
之前给大家介绍一个AI一键免费无限换脸的工具,很受大家的欢迎,后边项目被作者关停了,今天分享一款最新的AI一键免费无限换脸工具FaceFusion。
2024-12-24 17:03:15 -
怎么使用通义听悟翻译功能_通义听悟翻译使用方法
通义听悟支持实时中英文翻译。转写语言为中文时,支持翻译为英语;转写语言为英语时,支持翻译为中文。
2024-12-27 14:32:02 -
2D转3D成熟倒计时!2023(最全)AIGC-3D技术总结,一个视频搞懂AI生成3D模型
2023年我们见证了AI生成图像的快速进化,同样在这一年,AI生成3D虽然相对之下默默无闻,但也出现了很多重要的技术,实现了从0到1的突破。相信2024年一定会迎来AI生成3D技术的突飞猛进。这个视频我们一起看一下2023年AI生成3D有哪些重要工作,提前了解。为后面的成熟做好准备。
2024-12-18 14:25:53 -
微信AI图像生成表格教程_一键将表格图片转为Excel文档
利用微信的“搜一搜”功能,借助AI成像生成,立马就可以帮你将一张截图或者拍摄的表格图像转为腾讯文档在线表格。
2024-12-23 17:27:21 -
GNU/Linux怎么安装stable diffusion
Stable Diffusion 是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像
2024-12-30 16:07:31 -
阿里旗下夸克APP上线“AI学习助手”:内置海量试题,拍照一键解疑,巧用大模型帮助当代学子高效备考、快速进阶
夸克“AI学习助手”采用夸克宝宝的虚拟形象为用户进行题目讲解。基于大语言模型和视觉技术,AI智能讲解能够给用户提供 “考点分析”、“详解步骤”、“答案总结”等详细内容。
2025-02-18 16:08:16 -
AI周报|OpenAI展示新模型o3;智谱完成新一轮30亿元融资
OpenAI展示新模型o3 当地时间周五,OpenAI在为期12个工作日的新品发布活动的最后一天展示了o1模型的下一代o3,并表示该模型有o3版本和精简版o3-mini。OpenAI会在1月底前正式推出o3 mini,并在之后推出完整版的o3
2025-05-05 22:06:11 -
张文宏回应“被AI带货”:已多次向平台投诉
最近,有网友向媒体反映,家中老人在网络卖货视频中看到“张文宏医生”在卖一种蛋白类的产品,老人信以为真,不仅下了单还转发给了很多群。经过记者核实,该视频并非张文宏医生本人,而是利用AI技术合成的。对此,
2025-05-14 09:42:52 -
利用AI,研究人员可以对单个神经元的行为进行预测
9月11日,自然杂志公布了一项新进展,霍华德休斯医学研究所利用神经元连接图和人工智能方法,研究人员现在可以做到他们从未想过的事情:无需对活体大脑进行任何测量即可预测单个神经元的活动。 几十年来,神经科
2025-06-24 15:41:22 -
人工智能对学术出版是挑战还是机遇?行业专家来蓉“论道”
新书齐发,大咖云集! 这两天,2024天府书展好热闹! 出版行业的盛会当然也少不了各种研讨会的身影。 10月12日,中国出版协会第二届学术出版年会(2024)在成都举行。开幕式上,中国出版协会副秘书长朱国鑫
2025-06-24 16:05:22