最强数学大模型易主!阿里千问新模型成绩超GPT-4o,网友:这才是真“草莓”
最强数学大模型,现在易主!
阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3.1-405B,也战胜了GPT-4o、Claude 3.5等一系列闭源模型。
而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两位数。
Qwen2-Math一共有三个参数量的版本——72B,7B和1.5B。
最强的72B版本,在MATH数据集上比GPT-4o多得了7分,按比例算高出了9.6%。
7B版本也用不到十分之一的参数量,超过了72B的开源数学模型NuminaMath。
而且这个NuminaMath来头不小,它的7B版本在全球首届AIMO中获奖,奖项由数学大牛陶哲轩颁发。
阿里高级算法专家林俊旸激动地宣布,千问团队把Qwen2模型变成了一个数学高手。
fast.ai创始人Jeremy Howard看了直呼amazing。
网友更是惊叹,原来这才是真正的“草莓”,这是开源的胜利,也是所有人的胜利。
超越GPT4o,会做竞赛级试题
如前文所说,Qwen2-Math共有72B、7B和1.5B三个参数规模,分别由对应规模的Qwen2基础模型改造而成。
在基础模型之上,团队使用精心设计的数学专用语料库进行了预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由Qwen2模型合成的数学预训练数据。
结果,在GSM8K、MATH等经典数学测试集上,Qwen2-Math-72B的数学能力都超过了405B的Llama-3.1.
这些数据集,涉及到问题涵盖了代数、几何、计数与概率、数论等多种类型。
除了这些英文的数据集,Qwen2-Math还专门挑战了中文数据集CMATH,还有高考试题。
在中文数据集上,1.5B版本的成绩就超过了70B的Llama 3.1.而且三个版本相当于同规模的Qwen2基础模型,成绩都有明显提升。
在Qwen2-Math的基础之上,千问团队还微调出了Instruct版本。
具体来说,团队基于Qwen2-Math-72B训练一个数学专用的奖励模型,将奖励信号与正误判断信号结合作为学习标签,再通过拒绝采样构建监督微调(SFT)数据,最后在SFT模型基础上使用GRPO方法优化。
在MATH数据集上的零样本测试显示,1.5B的Instruct就能取得70%的准确率,比70B的Llama 3.1还高。
此外,研究团队还引入了难度更大的OlympiadBench、CollegeMath和英译版高考试题等更困难的测试集。
作者让Qwen2-Math采用了贪心(greedy)、RM@8和Maj@8三种策略,结果无论是哪一种,Qwen2-Math的成绩全都超过了同规模的Llama 3.1.
中文数据集方面,Qwen2-Math还挑战了今年最新的中高考试题,与Llama 3.1相比优势十分明显。
值得一提的是,为了减少测试成绩当中的“水分”,千问团队专门从训练数据集中去除了所有和测试集重叠的部分。
而且除了精确匹配,还运用了更严格的13-gram去重策略,只要最长公共序列的比率应大于0.6就会被去除。
后训练的过程也是如此,涉及的数据集,甚至测试成绩中没展示的Aqua、SAT Math,全都被从数据当中剔除。
另外,Qwen2-Math-Instruct已经具备了解决一些简单的竞赛级试题的能力。
比如在AIME 24的30道题当中,Qwen2-Math-72B-Instruct用rm@256策略能够做对11道。
像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo这些先进模型都只能做对一两道。
而且最小的1.5B版本也能在rm@256的条件下做对五道题,已经超过了这三家模型。
另外,Gemini 1.5 Pro有一个专门针对数学任务的版本,但也只能做对七八道题目,Qwen2-Math-72B-Instruct是第一个做对的题目数量达到两位数的模型。
在官方文档中,千问团队也展示了一些示例,比如奥赛级数学测试集Math Odyssey当中有这样一道题目。
这道题目涉及到组合数学和图论,具体又包括了完全图、二部图等概念。
此外还需要理解如何将这些概念应用于特定性质结构的构建,需要较强的抽象思维能力和对图论结构的深刻理解。
Qwen2-Math的解决方案是这样的,从中可以看出确实是运用到了图论方法。
最终,Qwen2-Math正确地回答了这道题目。
△中文为机翻,仅供参考
不过,目前发布的Qwen2-Math主要针对英文场景,中英双语版本将会在之后推出。
另外,根据Qwen2-Math的许可协议,该模型对大部分用户来说可以免费商用,但对于72B版本,如果每月活跃用户数超过1亿,就需要向千问团队申请许可了。
-
最强数学大模型易主!阿里千问新模型成绩超GPT-4o,网友:这才是真“草莓”
最强数学大模型,现在易主!阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3 1-405B,也战胜了GPT-4o、Claude 3 5等一系列闭源模型。而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两位数。
2025-01-13 11:01:04 -
马斯克宣布Grok 2即将发布丨小米旗舰机型国际版将接入谷歌Gemini丨科大讯飞发布「讯飞智文」2.0可生成AI-PPT
【AI奇点网2024年8月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-13 10:34:42 -
小鹏汽车公布灵活机械手:触觉能力对标人手丨科大讯飞股价暴跌丨国家网信办:向公众提供服务的AI大模型超过180个
【AI奇点网2024年8月13日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-13 10:11:49 -
谷歌发布多模态互动服务Gemini Live丨AI手机谷歌Pixel 9系列发布丨快手上线AI陪伴APP「飞船」
【AI奇点网2024年8月14日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-13 09:51:35 -
30s生成视频,免费不限次数,中国版OpenAI今天发布的「智谱清影」被玩疯了丨 附体验指南
过去半年,国内外视频生成模型迎来了新一轮技术大爆发,也都总能在第一时间烧遍社交网络。与以往的「掉队」有所不同,近期趋势却显示国内在视频生成模型这一领域的进步大为超越了国际水平。不少国外网友表示,「中国的可灵 AI 视频」在引爆互联网,而 OpenAI 的 Sora 却在沉睡。今天,国内头部大模型厂商智谱 AI 也发布了旗下 AI 视频生成产品「清影」。
2025-01-13 09:26:51 -
xAI正式发布Grok 2大模型测试版丨OpenAI更新GPT-4o,多项跑分重夺第一丨昆仑万维发布AI音乐流媒体创作平台Melodio
【AI奇点网2024年8月15日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-10 17:56:29
-
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01