刚刚,OpenAI内部推理模型斩获IOI 2025金牌,所有AI选手中第一
OpenAI的内部推理模型,又拿下了IOI2025金牌,击败325名人类选手,总排名第6,AI组第1。该模型沿用IMO金牌版本,无专门训练,限时5小时、50次提交且无联网支持。
刚刚,OpenAI内部推理模型在获得IMO金牌后,又拿下了IOI金牌。
和上次IMO一样,OpenAI使用了草莓形象来代表这个推理模型。
只不过这次的「草莓」不仅带上了IOI的金牌,而且更加的拟人,这个形象很有可能进化为OpenAI内部推理系统代表形象。
OpenAI宣言的这个「内部推理系统」就是上次拿下IMO金牌,惹出争议的同款模型。
IMO之后,OpenAI对IMO金牌模型进行了全面评估,发现除了数学竞赛之外,它在许多其他领域(包括编程)也是目前最好的模型。
因此,OpenAI决定直接使用完全相同的IMO金牌模型,不做任何更改,并将其应用于IOI的系统中。
OpenAI官方也发帖证实了这个消息。
这个内部推理模型的得分足够高,在今年的IOI线上竞赛中,和人类一起排名位列第6,与其他AI排名则是第1。
SherylHsu表示,这次内部模型参加了IOI的在线AI竞赛项目,一共330位参赛选手。
前5位都是人类。
此次比赛,AI和人类参赛者一样,相同的5小时时间限制,以及最多50次的提交限制次数。
并且,和人类一样,这个推理系统没有「联网」,也没有「RAG」搜索,只能访问基本的终端工具。
这个推理模型并没有针对IOI进行特别训练。
也就是说,除了让模型连接到IOIAPI外,剩下的一切都靠AI自己推理。
其实去年,OpenAI就参加过IOI比赛,当时以略微低于铜牌分数线的成绩收尾。
仅仅过去一年时间,推理模型的排名就从第49百分位跃升到第98百分位。
OpenAI内部推理模型-IOI金牌团队
不过,就在该消息发布没有多久。
马斯克的Grok也来搅局了!
首先要明确的是,这个「内部推理模型」并不是ToC的模型,除了OpenAI内部,没有人能够访问。
那像目前最顶级的商业模型,在IOI上表现如何?
答案是:惨不忍睹。
根据ValsAI的测试结果,目前能在IOI取得领先的商业模型,居然是Grok4。
首先,目前所有的顶尖模型都存在明显不足,没有一个模型能在任意一年的比赛中获得奖牌。
Grok4以26.2%的准确率领先,随后是GPT-5、Gemini2.5Pro和ClaudeOpus4.1。
ValsAI通过其公开端点进行测试,所有商业模型在IOI上仍有很大的改进空间。
此外ValsAI这次测试中发现,「贵就是好」的道理也适用于大模型领域。
只有每道问题超过2美元的昂贵模型,才能取得有意义的表现。
也就是说,OpenAI实验室里的那个推理模型,要远远强过目前公众能够接触到的商业模型。
这可能给人们带来很多遐想,目前最顶尖实验室中的最先进的AI技术距离公众还有多远?
这引发了很多猜测和讨论。
从IMO金牌闹剧中可以看到,巨头们对于这种「领先地位」的追求非常强。
谷歌Gemini为了给自己正名为「首个获得IMO金牌的AI模型」,甚至有组委会出面宣布「OpenAI的宣布」是无效的。
甚至还有OpenAI被曝IMO金牌造假,陶哲轩揭露内幕的桥段。
目前GPT-5刚刚发布,OpenAI就马上宣布IOI金牌,可以预测,这应该就是给后来的Gork5和Gemini3等模型准备的挑战。
为何OpenAI、谷歌、Anthropic、Grok等巨头们痴迷于刷榜和竞赛通关?
巨头们对刷榜和竞赛排名的痴迷,根本上源自AI行业的高度竞争性和技术的快速迭代。
首先,刷榜是最直接有效的营销手段之一。
排名榜单上的领先位置不仅意味着技术优势,更代表了市场影响力和品牌认可度。一旦模型在权威比赛如IMO、IOI中斩获佳绩,企业便能迅速树立强大的品牌形象,吸引公众关注并提升用户信任。
其次,AI领域的竞赛排名通常与模型的通用性能和应用潜力高度相关。无论是IMO还是IOI,这些比赛考验的是模型的基础推理、逻辑推演和泛化能力。
换句话说,竞赛胜出代表着模型不仅在特定任务上表现优异,更意味着其在更广泛的应用场景中可能具有领先的技术优势。
最后,竞赛胜出能够大大提高对人才和资本的吸引力。
OpenAI团队前往玻利维亚亲自参加IOI
正因如此,OpenAI、谷歌DeepMind、Meta和Anthropic等AI巨头始终热衷于在竞赛上相互较量,每一次榜单的变动都可能影响AI行业未来的格局。
那么,谁是地表最强AI?
也许这个竞争会一直持续到我们实现AGI的那天吧。
-
刚刚,OpenAI内部推理模型斩获IOI 2025金牌,所有AI选手中第一
拿下IMO金牌后,又搞定IOI金牌了
2025-08-19 09:24:21 -
港科大院长深圳造机器人,获亿元融资,招商局领投
戴盟机器人累计融资金额达数亿元,刷新触觉传感领域天使轮融资的最高纪录。
2025-08-18 09:06:23 -
OpenAI惊人自曝:GPT-5真「降智」了,但重现「神之一手」,剑指代码王座
GPT-5智商测试70分争议,路由问题引热议,prompt解锁医学编程神技。
2025-08-18 09:06:15 -
1亿美元买不走梦想,但只因奥特曼这句话,他离开了OpenAI
AI烧钱3000亿,安全专家不足千,Anthropic拒1亿,2028机器人觉醒。
2025-08-18 09:06:09 -
AI正在掏空大脑,思想沦为残废,未来只分AI的「主人」和「奴隶」
AI分化:驾驶员主动驾驭,乘客思维退化
2025-08-18 09:06:03 -
AI「解码」古罗马,重现千年铭文真相,DeepMind新模型再登Nature
DeepMind推出AeneasAI,助考古学家修复解读古代碑文。
2025-08-18 09:05:59
-
Stable Diffusion怎么图生图_Stable Diffusion图生图界面介绍
Stable Diffusion 是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像
2024-12-30 12:32:26 -
科大讯飞最新AI PPT产品“讯飞智文”全面测评:借助AIGC的能力,分分钟交付一份精美的年终PPT
不久前,科大讯飞上线的免费 PPT 生成“神器”——讯飞智文,就能极大地提高我们制作 PPT 的效率,将我们从繁杂的 PPT 苦海中解脱出来。
2024-12-13 19:46:47 -
我国人工智能核心产业规模不断提升 注册用户超6亿
工业和信息化部12日表示,截至目前,我国生成式人工智能服务大模型的注册用户超过6亿。 工业和信息化部总工程师 赵志国:我国人工智能核心产业的规模在不断提升,企业数量超过了4500家。完成备案并上线为公众
2025-06-25 11:30:12 -
OpenAI发布GPT-4o mini丨知名大模型迎战2024高考全科成绩出炉丨苹果否认使用未授权YouTube视频训练AI
【AI奇点网2024年7月19日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-14 17:45:35 -
微软推出Phi-3-mini迷你模型:苹果iPhone端侧就能运行,38亿参数规模就媲美GPT-3.5性能
Llama 3发布刚几天,微软就出手截胡,发布的Phi-3系列小模型,手机上能本地运行的最佳开源模型,已经做到ChatGPT(GPT-3 5)的水平。
2025-01-31 19:29:08 -
魅族发布AI操作系统Flyme 10.5:搭载基于Flyme AI大模型的Aicy人工智能助理
2023 魅族秋季无界生态发布会上,正式发布了搭载全新 AI 人工智能助理 Aicy 助手的 Flyme 10 5 系统。搭载了全新的Flyme AI大模型加持的Aicy。
2025-03-26 14:17:19 -
OpenAI视觉大模型GPT-4V可“操作”手机完成复杂交互指令:无需预训练
最近的一项研究发现:无需任何训练,OpenAI的视觉大模型GPT-4V就能直接像人类一样与智能手机进行交互,完成各种指定命令。
2025-03-28 13:56:45 -
紧随百度讯飞之后,360聊天机器人“360智脑”APP在苹果App Store上架
7月24日报道,360旗下大模型产品“360智脑”App已正式上线苹果应用商店。
2025-04-09 13:19:06 -
阿里AI视频生成模型DreaMoving_人脸图+提示词就能让纸片人动感起舞,随心生成服装与背景
阿里又整活了!阿里巴巴AI团队最新的一项AI视频生成研究课题——项目名称叫「DreaMoving」,主打的就是让任何人、随时且随地地跳舞。
2025-04-28 18:06:27 -
上海重磅部署,事关人工智能;贵州茅台拟回购30亿-60亿元股份用于注销
宏观新闻 1、中国人民银行发布了《中国金融稳定报告(2024)》。报告指出,实施好适度宽松的货币政策,综合运用多种货币政策工具,保持流动性充裕,使社会融资规模、货币供应量增长同经济增长、价格总水平预
2025-05-06 11:39:53