AI“破圈”加速步入物理世界

2025-04-29 来源：AI图库吧

从实现爆发性发展的语言智能，到初步显现巨大潜力的空间智能——展望2025年的人工智能行业，世界模型、合成数据、具身智能等引领行业前沿的方向，有望将人工智能的“洪荒之力”从虚拟世界加速拓展到物理世界，成为驱动AI行业发展的重要驱动力。

世界模型探索AI新前沿

刚刚过去的12月，“世界模型”成了AI行业热词，所谓世界模型，是指AI系统用来表示和理解外部世界运行规律的内部模型，通过大量图像、音频、视频和文本数据训练得来。近来，国内外世界模型成果频频。去年12月初，有“AI教母”之称的斯坦福大学教授李飞飞在同年组建的World Labs发布大型世界模型；谷歌DeepMind发布新一代世界模型Genie 2；Meta推出了导航世界模型NWM；此前智源研究院发布全自研原生多模态世界模型Emu3，实现了视频、图像、文本三种模态的统一理解和生成。

“有经验的老司机在开车时，对‘鬼探头’等状况会有预判，这得益于人通过规则学习建立了一个简化的世界驾驶模型。”极佳视界联合创始人兼首席科学家朱政说。

李飞飞将人类智能归结为两大智能，一是语言智能，二是空间智能。她认为，如果想让AI超越其自身当前能力，人们需要可以行动的AI。“我们需要从大型语言模型转向大型世界模型。”她说。

智源研究院在近日发布的2025十大AI技术趋势中提出，作为赋予AI更高级别的认知、适应和决策能力的技术，世界模型有望突破传统的任务边界，探索人机交互的新可能。“解决空间智能问题是关键一步。在2025年，空间智能的界限很可能会再次突破。”李飞飞说。

合成数据欲破“数据瓶颈”

数据，如同AI大模型的“血液”和“燃料”，其质量与数量直接决定了模型性能的上限。然而，随着大模型急速发展，近来人们不得不面临一个问题——能够用来“喂”给大模型的高质量数据越来越少了。

马斯克近日接受采访时表示，现实世界中能用来训练AI模型的资料，已经消耗得差不多了。《自然》《麻省理工科技评论》等多家科技杂志也提出，滋养无数模型成长的传统数据集正被大语言模型开发人员过度“开垦”。据人工智能研究机构Epoch AI的报告，在2026年以前，AI训练将用尽互联网上包含音视频在内的高质量数据，而现存真实数据集或将在2030年至2060年间耗尽。

除了“不够用”，现实世界数据还存在“不好用、不能用”等情况，数据质量参差不齐，可能使模型分析结果产生偏差。同时，随着监管加强，对个人信息等数据的保护力度加大，数据获取会戴上“紧箍咒”。

合成数据，成为业界探索解决人工智能未来发展“数据瓶颈”的解药。所谓合成数据，是指通过计算机算法生成的模拟数据，它不直接来自于现实世界。“合成数据将成为大模型迭代与应用落地的重要催化剂”，智源研究院在2025十大AI技术趋势中写道。

“暴雪天气、行人突然闯入道路……有很多危险驾驶场景很难在物理世界真实采集，因此我们需要合成数据。”一位自动驾驶从业者告诉记者。

在智源研究院看来，合成数据可以降低人工治理和标注的成本，缓解对真实数据的依赖，不再涉及数据隐私问题。此外，合成数据可以缓解通用数据被大厂垄断、专有数据存在获取成本等问题，促进大模型的应用落地。

具身智能或进入爆发“元年”

“通用机器人的时代即将到来，这将是世界上有史以来最大的技术产业。”在近日举行的国际消费类电子产品展览会（CES）开幕式上，英伟达创始人兼首席执行官黄仁勋说。在他看来，AI的下一个前沿方向就是“物理AI”，其中蕴藏着价值数万亿美元的机会。

2024年，全球范围内具身智能机器人竞争日益白热化。截至去年底，国内发布或者在研人形机器人厂商接近100家，融资已超过100亿元，被行业内戏称为“百人大战”或“百机大战”。CES开幕式上站在黄仁勋身后的14台具身智能机器人中，就有6台来自中国。

智平方创始人兼CEO郭彦东认为，从高危作业到重复性任务，再到家庭日常，具身机器人将在未来5到10年全面融入社会生活，重塑每一个行业的运作模式。

智源研究院预测，2025年将进入“具身智能元年”，近百家具身初创企业或将迎来洗牌，厂商数量将开始收敛。技术路线上，端到端模型继续迭代，“小脑”大模型的尝试或有突破，在商业变现上，更多的具身智能应用将在工业场景落地，部分人形机器人将迎来量产。

OpenAI正在秘密开发多模态大模型丨谷歌Bard机器人提供插件支持丨火山引擎发布AI赋能的数智分析平台

最后一页