AI大模型9.11和9.9那个,_AI大模型测评
没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??
强如GPT-4o,都坚定地认为9.11更大。
谷歌Gemini Advanced付费版,同样的口径。
新王Claude 3.5 Sonnet,还一本正经的给出离谱的计算方法。
9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10
到这一步还是对的,但下一步突然就不讲道理了
如上所示,9.11比9.90大0.01.
你想让我进一步详细解释小数的比较吗?
这你还解释啥啊解释,简直要怀疑是全世界AI联合起来欺骗人类了。
艾伦AI研究所成员林禹臣换了个数字测试,GPT-4o依旧翻车,他表示:
一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。
也有网友发现了华点,如果是说软件版本号,那么9.11版本确实比9.9版本更大(更新)。
而AI都是软件工程师开发的,所以……
那么,究竟是怎么回事?
先进大模型集体翻车
一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了?
发现这个问题的是Riley Goodside,有史以来第一个全职提示词工程师。
简单介绍下,他目前是硅谷独角兽Scale AI的高级提示工程师,也是大模型提示应用方面的专家。
最近他在使用GPT-4o时偶然发现,当提问:
9.11 and 9.9——which is bigger?
GPT-4o竟毫不犹豫回答前者更大。
面对这一常识性“错误”,他不死心地又去问了其他大模型,结果几乎全军覆没。
好家伙,身为一名提示工程师,他敏锐意识到可能是“打开方式有误”。
于是他又换了个问法,将提问限定在“实数”,结果还是翻车了。
不过,有网友试着给提问换了个顺序,没想到这下AI竟反应过来了。
看到AI对词序如此“敏感”,该网友进一步推测:
先问哪个更大,AI会沿着明确路径开始比较数字。
但如果只是随便说说数字,没有明确目的,AI可能会开始“胡思乱想”。
看到这里,其他网友也纷纷拿相同提示试了一把,结果翻车的不在少数。
面对这一个诡异的问题,国产大模型表现如何呢?
我们简单测试一番,问题也换成中文提问,结果翻车率也比较高,选取几个有代表性的展示:
Kimi也是不加解释就直接给出错误结论。
智谱清言APP上的ChatGLM,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了。
不过也有表现不错的,腾讯元宝先复述了一遍选项,然后直接做对。
字节豆包是少数能把比较方法描述清楚,而且用对的。甚至还联系实际举例来验证。
比较可惜的是文心一言,面对这个问题,也是触发了联网查询。
本来都已经做对了,但突然话锋一转又导向了错误结论。
不过从文心一言的思路解释上,也可以看出背后问题所在。
由于大模型以token的方式来理解文字,当9.11被拆成“9”、“小数点”和“11”三部分时,11确实比9大。
由于OpenAI使用的Tokenizer开源,可以用来观察大模型是如何理解这个问题。
上图可以看出,9和小数点分别被分配为“24”和“13”,小数点后的9同样也是“24”,而11被分配到“994”。
所以使用这种tokenizer方法的大模型会认为9.11更大,其实是认为11大于9.
也有网友指出,像是书籍目录里第9.11节也比第9.9节大,所以最终可能还是训练数据里见这种见得多了,而手把手教基础算数的数据很少。
也就是问题本身对人类来说,一看就知道问的是算数问题,但对AI来说是一个模糊的问题,并不清楚这两个数字代表什么。
只要向AI解释明白这是一个双精度浮点数,就可以做对了。
在有额外条件的情况下,tokenizer这一步依然会给11分配更大的token。但是在后续自注意力机制的作用下,AI就会明白要把9.11连起来处理了。
后来Goodside也补充,并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时,许多领先模型都会告诉你9.11>9.9.这很奇怪。
经过反复尝试后他发现,想让AI上这个当,需要把选项放在提问前面,如果调换顺序就不会出错。
但是只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。
虽然问题很简单,错误很基础。
但了解出错原理之后,许多人都把这个问题当成了检验提示词技巧的试金石,也就是:用什么提问方法能引导大模型的注意力机制正确理解问题呢?
首先,大名鼎鼎的Zero-shot CoT思维链,也就是“一步一步地想”,是可以做对的。
不过角色扮演提示,在这里作用就有限了。
刚好最近也有微软和OpenAI都参与的一项研究,分析了1500多份论文后发现,随着大模型技术的进步,角色扮演提示不像一开始那样有用了……
具体来说,同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。
也是让人哭笑不得了。
One More Thing
与此同时,路透社的OpenAI秘密模型「草莓」泄漏消息更新了。
更新内容为:另一位线人报告,OpenAI已经在内部测试了新模型,在MATH数据集上得分超过90%。路透社无法确定这是否与“草莓”是同一个项目。
MATH数据集包含竞赛级别的数学题,目前不用多次采样等额外方法,最高分是谷歌Gemini 1.5 Pro数学强化版的80.6%。
但是OpenAI新模型在没有额外提示情况下,能不能自主解决“9.11和9.9哪个大?”。
突然没信心了,还是等能试玩了再看结果吧……
-
AI大模型9.11和9.9那个,_AI大模型测评
没眼看……“9 11和9 9哪个大”这样简单的问题,居然把主流大模型都难倒了??强如GPT-4o,都坚定地认为9 11更大。
2025-01-15 12:50:58 -
集体降智!一道人人都会的小学算术题竟然难倒全球AI大模型
一道小儿科的数学比较大小的问题,居然把号称“大学生IQ”的AI大模型给难倒了,这件事竟然发生在ChatGPT、谷歌和百度的AI机器人身上。
2025-01-15 12:28:46 -
苹果等大厂长期使用YouTube视频内容训练AI大模型丨魅族发布「魅蓝20」AI手机丨微软发现破解大模型的“万能钥匙”
【AI奇点网2024年7月17日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-15 11:59:53 -
安卓版Claude开放下载_claude最新资讯
Anthropic发布Claude聊天机器人Android版!将最先进AI大模型Claude 3 5 Sonnet带入全球安卓用户掌中,挑战ChatGPT霸主地位。
2025-01-15 11:32:27 -
月之暗面回应AI大模型无法分辨小数位数值大小丨三星发布首款AI智能戒指Galaxy Ring丨AI手机今年出货量将暴增364%
【AI奇点网2024年7月18日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-15 11:09:13 -
微软发布手机端免费AI绘图工具Microsoft Designer:支持修图、生成海报贺卡壁纸
微软面向苹果iOS应用商店、谷歌Google Play上架Microsoft Designer图片编辑应用,让iPhone和安卓手机用户体验AI修图等功能。
2025-01-15 10:18:25
-
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01