大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述
图 1 领域典型进展综述首先介绍相关技术背景,包括具身智能的基本概念,大模型相关技术,以及强化学习、模仿学习、模型预测控制等策略学习框架。随后,从学习范式的角度将大模型驱动的具身智能算法概括了五大类并依次进行了详细阐述,分别是大模型驱动的环境感知、大模型驱动的任务规划、大模型驱动的基础策略、大模型驱动的奖励函数、大模型驱动的数据生成。图 2 展示了综述的整体框架。
图 2 综述整体框架大模型驱动的具身环境感知在具身智能任务中,智能光电设备可以为具身智能体提供周围环境的视觉信号,随后大模型感知技术为具身决策提供基础。1)相比于传统的特征提取方法,视觉大模型具有较好的泛化性,许多研究通过引入视觉预训练模型来提高策略的视觉泛化能力和鲁棒性。2)机器人 Affordance 是一种对操作任务更具有解释性的通用特性,通过预训练 Affordance 模型能够为具身操作提供更详细的指导,例如物体的交互位置 (如门把手,茶壶手柄等),物体的交互轨迹 (如向内推、向上提等),如图 3 所示。3)复杂任务需要获取操作物体的 3D 场景特征,许多方法设计从点云和多视角图像中提取目标位置、方向、遮挡、物体之间的堆叠关系等。该领域典型方法如表 1 所示。
图 3 典型的 Affordance 提取方式
表 1 大模型驱动的具身感知算法总结大模型驱动的具身任务规划在大规模语言数据中训练得到的大模型对现实世界有着丰富的先验知识,可以用来作为具身智能任务的规划器。然而,大模型的知识与具身环境存在不匹配的现象,可能会导致大模型的规划无法执行。1)现有研究通过构建闭环反馈的方法来解决开环规划中存在的问题,包括大模型自我反馈、外部环境反馈、强化学习反馈等,对大模型等规划进行纠错,如图 4 所示。2)通过规划搜索算法能够提升大模型在长周期任务规划中的最优性,这一领域包含蒙特卡洛树搜索、世界模型、规划领域定义语言搜索等。该领域典型方法如表 2 所示。
图 4 大模型规划等闭环反馈方法
表 2 大模型驱动的具身规划算法总结大模型驱动的具身基础策略大模型任务规划依赖于能够执行规划对底层技能库。为了减轻底层技能库定义的依赖,提升决策效率,1)许多研究考虑将大模型参数作为具身基础策略,并利用具身数据对大模型参数进行微调,使大模型能够更加适应于具身决策场景。基础策略可以输出更具体的任务规划,也可以直接输出机器人需要执行的动作,如图 5 所示。2)扩散模型由于对长序列数据建模中的强大能力,许多研究将其用于建模专家轨迹的多样化数据分布,从而用于长序列任务的轨迹规划或动作规划,或作为具身策略结合强化学习算法进行策略优化。
图 5 大模型驱动的具身策略微调
表 3 大模型具身基础策略算法总结大模型驱动的具身奖励函数在基于强化学习和模型规划控制的具身算法中,最优策略通过优化奖励函数产生。传统方法中奖励函数由机器人领域专家设计,具有一定的设计难度。1)大模型对机器人和任务具有丰富的先验知识,许多研究提出使用大语言模型 / 视觉语言模型进行奖励图或奖励函数的生成,随后通过策略优化和环境反馈进行优化。2)其他研究学习通过从状态视频预测、描述 – 轨迹匹配程度、轨迹相似性等方面学习参数化的奖励模型。3)受大模型偏好学习等启发,许多研究通过人类反馈对轨迹偏好进行打分,使用人类反馈强化学习(RLHF)算法进行奖励模型等训练。典型框架如图 6 和表 4 所示。
图 6 大模型驱动的奖励函数框架
表 4 大模型驱动的具身奖励函数算法总结大模型驱动的具身数据生成大模型进行具身数据生成有望解决机器人数据稀缺的难题。1)世界模型(World Model)揭示了物理世界的运行规律,包括未来视觉观测如何改变,状态如何根据环境动力学进行转移,以及智能体最终达到的状态等。构建世界模型能够快速产生大量轨迹来丰富强化学习或模仿学习的数据,基本框架包含隐空间世界模型、Transformer 世界模型、扩散世界模型等。2)大模型能够借助仿真环境进行自动化的环境生成和数据采集,主要流程包括大模型自动任务提出、自动环境构造、自动任务解决、自动数据采集、自动技能学习等,快速产生针对特定任务的仿真数据,进行机器人技能和策略的学习,如图 7 所示。该领域典型方法如表 5 所示。
图 7 大模型驱动的仿真环境和数据生成框架
表 5 大模型驱动的具身数据生成算法总结大模型驱动的具身智能已具备了研究和技术体系的雏形,有望使 “数字” 大模型在 “实体” 机器人中生根发芽。综述随后分析了现有研究之间存在的联系,并总结了目前大模型驱动的具身智能领域面临的挑战,包括大模型在特定具身场景中的适应问题、大模型策略和人类偏好的对齐问题、具身策略的跨域泛化问题、大模型驱动多智能体协作问题、具身智能在真实环境中所面临的挑战和大模型具身策略的决策实时性问题等。虽然目前关于采取何种路线能够达到通用具身智能仍很难定论,但大模型的成功切实的推动了具身智能的发展。综述对该领域的未来研究进行了展望,包括统一具身数据平台、通用具身数据表征、鲁棒具身控制策略、可控具身策略生成、人机合作具身智能、异构智能体协同、轻量化具身策略和人形机器人等方面。 -
大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述
近年来,大模型在人工智能领域掀起了一场革命,各种文本、图像、多模态大模型层出不穷,已经深深地改变了人们的工作和生活方式。另一方面,在国际半导体大会上,英伟达创始人黄仁勋表示,人工智能下一个浪潮将是
2025-07-16 15:08:11 -
几行乱码让大模型获得科学思维,这个神奇的提示词突然火了
起猛了?不过两三天的时间,仅有两个 Markdown 文件的 GitHub 项目为何竟能收获 1 9k star? 仔细一看,其中一个 Markdown 文件是一个流程图,另一个 Readme 文件的主要内容则是一大篇大模型提示词(promp
2025-07-16 14:44:11 -
国内首个端到端语音大模型将上线,人工智能也要有“情商”
未来的宠物医院应该是什么样子?通过摄像头就能为宠物建立“刷脸”系统,运用AI大模型结合健康体识别技术,还可以帮助医生快速定位宠物健康问题,协助医生制定更全面的治疗方案。 未来的理财服务又该如何?用户拿起
2025-07-16 14:20:11 -
10余个大模型扎推“实验室”,30多个机器人大显身手,记者探营外滩大会,感受科技赋能未来生活
步入10000平方米的外滩大会科技展,沉浸式的体验感扑面而来。人工智能实验室、数据要素流通工厂、未来安全实验室、未来出行、国际风情街……20个主题展区仿佛一个个小世界,从逛展者的视角,解读科技创新带来的全新
2025-07-16 13:56:11 -
火山引擎联合南开大学,以大模型助力智慧校园建设
火山引擎AI创新巡展活动近日在天津举办,来自教育、交通、医疗等各领域的客户分享了大模型应用实践。南开大学副校长、教授、博士生导师方勇纯表示:“南开大学携手火山引擎,共同探索‘AI+教育’的创新模式,落地一
2025-07-16 13:32:12 -
大模型进厨房,万得厨发布厨房智能体
当大模型成为手机、电脑等消费电子的标配后,家电行业也开始出现了大模型的应用案例。 在深圳国际会展中心举办的AGIC大会上,万得厨发布了首款搭载祝融烹饪自研大模型的厨房智能体。与传统微波炉不同的是,该
2025-07-16 13:08:11
-
腾讯升级混元大模型推出「腾讯版GPTs」智能体应用,打通微信QQ生态,发布“混元助手”手机客户端APP
5月17日,腾讯在生成式AI产业应用峰会上,集中披露了包括底层的通用模型、行业大模型的能力升级,以及多个新产品。智能体产品“腾讯元器”闪亮登场。
2025-01-26 09:46:03 -
李彦宏:AI大模型本身不直接产生价值,“卷”大模型没有意义,“卷”应用机会更大
9月5日,百度CEO李彦宏在百度“文心杯”创业大赛颁奖致辞中表示,AI 原生应用要能解决过去解决不了、解决不好的问题,应用才是大模型存在的意义。
2025-04-13 15:06:30 -
佳能推出两款图像AI处理工具:提供消除马赛克、降噪与画质提升三大功能
佳能中国官方发布消息称,正式对消费者推出两款神经网络应用工具软件,主要面向专业的制图师与、摄影发烧友、摄影师及其影像工作室等人群。
2025-04-29 15:41:20 -
美年健康:大模型与AI Agent赋能,引领医疗人工智能应用
随着科技迅猛发展,人工智能已悄然融入生活各个角落。在12 月 14日结束的第七场发布上,Open AI 作为全球AI领域的先行者,再次展示了其在人工智能领域持续迭代与创新的强劲势头,从ChatGPT 的广泛应用,到后来依
2025-05-14 16:25:21 -
金融街论坛观察:“AI+金融”在多个业务领域落地开花
中新经纬10月20日电 (李自曼)AI与金融的融合正成为推动数字金融转型升级的重要力量。在2024金融街论坛年会期间,多位金融界和科技界专家学者、公司高管就“AI+金融”相关主题进行了深入探讨。 中国银行业协会首席信
2025-06-20 14:21:20 -
张军出席第19届亚太首席大法官会议并作专题发言表示 深化人工智能领域的司法交流合作 努力为人类司法文明进步作出新贡献
张军出席第19届亚太首席大法官会议并作专题发言表示 深化人工智能领域的司法交流合作 努力为人类司法文明进步作出新贡献 当地时间10月12日至13日,第19届亚太首席大法官会议在马来西亚吉隆坡举办
2025-06-25 11:06:12 -
我国人工智能核心产业规模不断提升 注册用户超6亿
工业和信息化部12日表示,截至目前,我国生成式人工智能服务大模型的注册用户超过6亿。 工业和信息化部总工程师 赵志国:我国人工智能核心产业的规模在不断提升,企业数量超过了4500家。完成备案并上线为公众
2025-06-25 11:30:12 -
人工智能可帮助寻找暗物质
瑞士研究人员开发出一种人工智能算法,可从天文观测数据中分辨出与暗物质有关的信号,将其与容易混淆的其他信号区别开来。 瑞士洛桑联邦理工学院科研人员开发的这一深度学习算法利用了“卷积神经网络”技术,这是一
2025-07-08 11:09:23 -
midjourney新功能_style tuner应用教程_MJ最新教程
MJ的新功能style tuner,终于可以训练自己的模型风格了,在我快速模式恢复之后立马尝试了一遍,操作步骤简单,比SD容易上手太多,我来代练一遍,大家跟上节奏
2024-12-19 06:34:05 -
OpenAI官宣:开始训练下一代AI大模型,「GPT-5」发布时间曝光
最近OpenAI的小动作越来越频繁了。当地时间5月28日,OpenAI在官网博客上正式宣布?:开启下一代大模型的训练,同时成立AI安全监管委员会。
2025-01-21 17:52:43
















