实测ChatGPT大升级!数学逻辑能力大幅提升:1.2万道数学题测试,突破78.2%的难题
AI聊天机器人:ChatGPT
工具介绍:让每个人都可以轻松创作令人惊艳的数字人短视频。通过数字人形象定制、声音克隆技术,能够生成出比拟真实人物的外貌、表情、动作和声音,并且通过AI文案功能快速生成企业宣传、网络营销文案,使创作效率得到更进一步的提升。
工具链接:https://www.aieva.cn/sites/275.html
6月1日今天凌晨,OpenAI官方博客发布新的研究进展,在数学推理能力上,研究人员正在通过过程监督的奖励模型揪出大型语言模型的逻辑错误。
大型语言模型在执行复杂多步推理能力上有了很大提高,但有时候仍会产生逻辑错误,这种错误通常被称为“幻觉”。这也是阻碍通用人工智能时代到来的关键一步。而这种幻觉现在有望被结果监督、过程监督的奖励模型打破。具体方法是,研究人员使用模型思维链的最终结果对结果监督的奖励模型(ORM)进行训练,而过程监督的奖励模型(PRM)会接收思维链中每一步的反馈训练。
OpenAI让ChatGPT的做数学题水平直线上升
过程监督相比于结果监督的优势在于,它会直接奖励遵循一致的思维链模型,并且因为过程中的每个步骤都受到了精确的监督,能指出发生错误的确切位置,其结果也更容易被人类解读,因此可以更直接地奖励大型语言模型遵循人类认可的思维链。
OpenAI的研究人员对结果监督和过程监督进行了更详细的比较,他们使用了更强大的基础模型GPT-4、更多的人类反馈,并在MATH数据集上进行了训练和测试。基于上述条件,研究人员证明了,过程监督的奖励模型能解决MATH测试集代表性子集中78.2%的问题。
训练1.2万道数学题大模型监督小模型训练
在测试过程中,结果监督可以在没有人为干预的情况下提供,因为MATH数据集中的所有问题都有可自动检查的答案。但过程监督需要依靠人工数据标注器来标注模型生成的解决方案中每个步骤的重要性。
研究人员就在大规模和小规模两种情况下进行实验,在大规模训练下,研究人员基于GPT-4进行微调,但这一情况下,过程监督和奖励监督的训练集数据没有完全重合,无法直接比较。因此,研究人员对模型进行了小规模训练以进行直接比较。为了降低人工反馈的成本,他们使用大型语言模型来监督小型语言模型训练。
在每个模型上,研究人员使用一个固定的模型来生成所有的解决方案,这个固定模型就是生成器。为了收集过程监督数据,研究人员向人类数据标注器提供了大规模生成器采样的数学问题的解决方案步骤。
人类数据标注器就会为每个步骤分配一个Positive、Negative、Neutral的标签,Positive代表该步骤正确、合理,Negative代表不正确、不合理,Neutral表示有歧义。
Positive:这个问题中,GPT-4在第7、8步时执行猜测,这也是大型语言模型容易产生幻觉的常见地方,即声称某个猜测是正确的,但这里没有发生错误:
Negative:下面这个问题中,第七个步骤,GPT-4进行了错误的简化表达,奖励模型指出了错误:
它将“12x”正确移动到了左边,并进行了组合,右边的项没有改变,奖励模型没有辨认出这个错误:
过程监督整体效果优于结果监督,解决方案更多效果更好
结果监督的奖励模型中,研究人员从生成器中为每个问题均匀采样固定数量的答案,并训练奖励模型预测每个答案是正确或不正确。实际操作过程中,研究人员会通过自动检查最终答案来确定正确性,并使用奖励模型在最终token处的预测作为解决方案的总体得分。
但这种自动评分机制并不完全可靠,该机制无法对通过错误推理得出正确答案的解决方案作出合理判断。过程监督的奖励模型会预测每个步骤中最后一个token的正确性。
如下图所示,过程监督的奖励模型对同一问题的两个解决方案评分,左边的解决方案正确,右边不正确。绿色标注是高分数,红色标注是低分数,奖励模型能正确识别右边解决方案中的错误位置。
研究人员使用来自MATH测试集的问题来评估其过程监督和结果监督奖励模型,为每个问题生成许多解决方案,然后选择每个奖励模型排名最高的解决方案。
下图显示了最终达到正确答案的所选解决方案的百分比,过程监督奖励模型整体表现更好,并且随着研究人员对每个问题的解决方案考虑范围扩大,其性能差距也会扩大。因此,研究人员认为,过程监督奖励模型更加可靠。
数学外224道问题评估,过程监督效果更优
研究人员还研究了主动学习的影响,他们估计主动学习可以使过程监督的数据效率提高2.6倍。此外,为了探究奖励模型的泛化性,研究人员还对224道STEM问题进行了大规模的过程监督、结果监督评估,包括AP物理、AP微积分、AP化学、AMC10和AMC12考试,其中,过程监督的表现优于结果监督。
并且过程监督更有可能产生可解释的推理,因为它会鼓励大型语言模型遵循人类确认的逻辑思考过程。
在某些情况下,更安全的人工智能系统方法会导致其性能下降,会产生对齐税(alignment tax)成本,也就是大型语言模型要和人类的价值观对齐,这在一定程度上会约束大型语言模型的想象力。OpenAI研究人员的结果表明,在数学领域,过程监督实际上会产生负对齐税。
目前尚不清楚这些结果能否完全推广到数学以外的领域,但研究人员认为,如果这些结果具有普遍性,过程监督就提供了一种比结果监督更高效、更一致的方法。
结语:AI可解释性研究亟需加速
上个月,OpenAI用GPT-4来自动解释GPT-2的行为的研究打开了大模型思考黑盒,此次,在数学推理能力上,研究人员又通过过程奖励模型使得大模型的思考过程变得可追踪、可纠错,这些研究都使得AI的可解释性有了更大的进步空间。
从结果来看,过程监督奖励模型的效果目前只在数学推理领域得到有效印证,但正如OpenAI的研究人员所说,目前的研究方向对于过程监督在其他领域的影响以及未来的工作很重要。这些研究未来可以让大模型在内容生成、理解上展现出强大能力的同时,其“思考过程”也能被检测出是否有偏见或错误,从而让大模型的黑盒变得更加透明。
本文转载自 智东西
-
小度全新AI硬件将于百度世界大会发布丨智谱AI、即梦AI上线新一代视频生成模型丨OpenAI安全系统团队负责人离职
【AI奇点网2024年11月11日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-08 11:46:33 -
字节跳动内测豆包通用图像编辑模型SeedEdit丨Grok聊天机器人免费版内测丨月之暗面Kimi创始人被提起仲裁
【AI奇点网2024年11月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-08 11:25:01 -
李彦宏:文心大模型日调用量超15亿丨百度发布文心「iRAG」文生图技术丨小度AI智能眼镜发布,搭载大模型边走边问
【AI奇点网2024年11月13日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-08 10:58:46 -
巧妙利用这两个AI产品,让你的国庆出行没有废片
这两天就有朋友来问我,有没有那种能修图的AI,就是扩图+消除啥的傻瓜好用的。大家大概的需求总结一下其实就两,AI消除+AI扩图。
2025-01-08 10:34:49 -
OpenAI初步谈妥融资70亿美元:最大金主微软追加投资10亿,苹果退出
据华尔街日报报道,苹果公司退出了对 OpenAI 的新一轮融资谈判,而微软则计划向 OpenAI 追加约 10 亿美元的投资。
2025-01-08 10:14:21 -
详解Meta全新大模型Llama 3.2系列:多模态视觉识别能力媲美OpenAI GPT-4o
Meta公司推出了Llama 3 2,也是它首款能够理解图像和文本的旗舰视觉模型。包含中型和小型两个版本,以及更轻量化可用于手机端侧的纯文本模型。
2025-01-08 09:46:43
-
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
openpose如何自定义角色_个性化角色姿势怎么定制_Controlnet深度解析
在设计角色姿势时,如何使用openpose进行姿势自定义,以及如何通过拍摄照片或使用第三方后期软件?同时,虚幻引擎对于角色姿势的编辑也很重要,本视频就并展示了如何使用优异商城中的免费资源来创建人物角色。
2024-12-19 11:43:51