刚刚，OpenAI内部推理模型斩获IOI 2025金牌，所有AI选手中第一

2025-08-19 来源：AI图库吧

OpenAI的内部推理模型，又拿下了IOI2025金牌，击败325名人类选手，总排名第6，AI组第1。该模型沿用IMO金牌版本，无专门训练，限时5小时、50次提交且无联网支持。

刚刚，OpenAI内部推理模型在获得IMO金牌后，又拿下了IOI金牌。

和上次IMO一样，OpenAI使用了草莓形象来代表这个推理模型。

只不过这次的「草莓」不仅带上了IOI的金牌，而且更加的拟人，这个形象很有可能进化为OpenAI内部推理系统代表形象。

OpenAI宣言的这个「内部推理系统」就是上次拿下IMO金牌，惹出争议的同款模型。

IMO之后，OpenAI对IMO金牌模型进行了全面评估，发现除了数学竞赛之外，它在许多其他领域（包括编程）也是目前最好的模型。

因此，OpenAI决定直接使用完全相同的IMO金牌模型，不做任何更改，并将其应用于IOI的系统中。

OpenAI官方也发帖证实了这个消息。

这个内部推理模型的得分足够高，在今年的IOI线上竞赛中，和人类一起排名位列第6，与其他AI排名则是第1。

SherylHsu表示，这次内部模型参加了IOI的在线AI竞赛项目，一共330位参赛选手。

前5位都是人类。

此次比赛，AI和人类参赛者一样，相同的5小时时间限制，以及最多50次的提交限制次数。

并且，和人类一样，这个推理系统没有「联网」，也没有「RAG」搜索，只能访问基本的终端工具。

这个推理模型并没有针对IOI进行特别训练。

也就是说，除了让模型连接到IOIAPI外，剩下的一切都靠AI自己推理。

其实去年，OpenAI就参加过IOI比赛，当时以略微低于铜牌分数线的成绩收尾。

仅仅过去一年时间，推理模型的排名就从第49百分位跃升到第98百分位。

OpenAI内部推理模型-IOI金牌团队

不过，就在该消息发布没有多久。

马斯克的Grok也来搅局了！

首先要明确的是，这个「内部推理模型」并不是ToC的模型，除了OpenAI内部，没有人能够访问。

那像目前最顶级的商业模型，在IOI上表现如何？

答案是：惨不忍睹。

根据ValsAI的测试结果，目前能在IOI取得领先的商业模型，居然是Grok4。

首先，目前所有的顶尖模型都存在明显不足，没有一个模型能在任意一年的比赛中获得奖牌。

Grok4以26.2%的准确率领先，随后是GPT-5、Gemini2.5Pro和ClaudeOpus4.1。

ValsAI通过其公开端点进行测试，所有商业模型在IOI上仍有很大的改进空间。

此外ValsAI这次测试中发现，「贵就是好」的道理也适用于大模型领域。

只有每道问题超过2美元的昂贵模型，才能取得有意义的表现。

也就是说，OpenAI实验室里的那个推理模型，要远远强过目前公众能够接触到的商业模型。

这可能给人们带来很多遐想，目前最顶尖实验室中的最先进的AI技术距离公众还有多远？

这引发了很多猜测和讨论。

从IMO金牌闹剧中可以看到，巨头们对于这种「领先地位」的追求非常强。

谷歌Gemini为了给自己正名为「首个获得IMO金牌的AI模型」，甚至有组委会出面宣布「OpenAI的宣布」是无效的。

甚至还有OpenAI被曝IMO金牌造假，陶哲轩揭露内幕的桥段。

目前GPT-5刚刚发布，OpenAI就马上宣布IOI金牌，可以预测，这应该就是给后来的Gork5和Gemini3等模型准备的挑战。

为何OpenAI、谷歌、Anthropic、Grok等巨头们痴迷于刷榜和竞赛通关？

巨头们对刷榜和竞赛排名的痴迷，根本上源自AI行业的高度竞争性和技术的快速迭代。

首先，刷榜是最直接有效的营销手段之一。

排名榜单上的领先位置不仅意味着技术优势，更代表了市场影响力和品牌认可度。一旦模型在权威比赛如IMO、IOI中斩获佳绩，企业便能迅速树立强大的品牌形象，吸引公众关注并提升用户信任。

其次，AI领域的竞赛排名通常与模型的通用性能和应用潜力高度相关。无论是IMO还是IOI，这些比赛考验的是模型的基础推理、逻辑推演和泛化能力。

换句话说，竞赛胜出代表着模型不仅在特定任务上表现优异，更意味着其在更广泛的应用场景中可能具有领先的技术优势。

最后，竞赛胜出能够大大提高对人才和资本的吸引力。

OpenAI团队前往玻利维亚亲自参加IOI

正因如此，OpenAI、谷歌DeepMind、Meta和Anthropic等AI巨头始终热衷于在竞赛上相互较量，每一次榜单的变动都可能影响AI行业未来的格局。

那么，谁是地表最强AI？

也许这个竞争会一直持续到我们实现AGI的那天吧。

港科大院长深圳造机器人，获亿元融资，招商局领投

相关AI教程资讯

热门工具

本周AI教程资讯

更多