谷歌推出通用AI代理SIMA丨目前可以自动执行600多种动作,游玩复杂3D游戏
谷歌DeepMind的研究人员推出了一种面向3D环境的通用AI代理——SIMA。
SIMA无需访问游戏的源代码,也不需要定制的API。只需要输入图像和用户提供的简单自然语言文本指令,SIMA就能像人类玩家一样执行走路、跑步、建造、打开地图等各种游戏中的操作。
为了测试、训练SIMA的性能,研究人员与8个游戏工作室合作,在《无人深空》、《模拟山羊3》、《Teardown》、《挖矿模拟器》等知名复杂3D游戏上进行了综合测试。
结果显示,用户只需要在游戏中提供简单的文本、图像提示,SIMA就能执行挖矿、开飞船、制作装备、打开外骨骼、搜集任务、爬楼梯等600多种基本操作,每个动作可以在大约10秒内完成。
技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf
在游戏场景中测试AI代理是一个重要课题,与传统的沙盒2D方法不同的是,SIMA选择了操作、环境、视觉难度更高的3D游戏。
SIMA使用了大模型的训练方法,通过广泛的数据分布来识别那些复杂的动作,同时无需为每个新游戏设计特定的控制、观察模块,就能理解人类的文本指令,并将其转化为具体的行动。
多种大模型组成的“人体”
从SIMA的总体架构来看,由多种大模型组合而成像是在模仿人体。视觉感知模型充当“眼睛”、大语言模型充当“大脑”、建模规划模型充当“思维”、控制和执行模型充当“四肢”。
也就是说SIMA在接收到指令后,会用人的方式去思考、规划接收到的任务,然后再去执行。
视觉感知模型:视觉感知模块负责处理AI代理的图像观察,并提取关键信息以辅助语言指令的理解和环境的交互。该模块使用卷积神经网络(CNN)等深度学习技术对输入的图像数据进行处理和特征提取。
使得SIMA能够识别和分析图像中的物体、场景和空间位置等重要信息,以帮助AI代理更好地理解语言指令,并在虚拟世界中进行准确的交互和操作。
大语言模型:主要负责解析和理解输入的自然语言指令。使用了NLP、词嵌入、序列模型和注意力机制等技术,将语言指令转化为机器可理解的表示。
使得AI代理能够准确地理解和解释指令中的动作和目标,为后续的建模和规划提供基础。
建模规划模型:通过强化学习和规划算法,与环境的交互和反馈来学习最佳的行动策略。AI代理通过不断尝试和优化,逐渐掌握了在不同环境下执行任务的能力。
可根据语言指令、视觉感知信息和当前环境状态,生成有效的动作序列,以实现任务的完成。
控制和执行模型:主要负责将生成的动作序列转化为实际的动作控制指令,并映射到键盘、鼠标上,以驱动AI代理在3D游戏中执行任务,例如,移动、跳跃、奔跑、挖矿等,同时可根据环境的反馈进行自适应调整和优化。
数据收集和预处理
数据收集和预处理是SIMA的核心模块之一,主要获取、准备和处理用于训练和评估AI代理的数据。
研究人员从商业游戏等环境搜集了海量数据,搜集完成后对数据进行了清洗、转换和标准化数据操作,方便后续的训练和分析。
数据清洗:对原始数据进行去噪和异常值处理,可能会存在一些噪声或异常数据,例如,图像中的视觉干扰或语言指令中的错误字符。研究人员通过采用图像去噪和文本纠错的方式,来消除这些干扰因素。
数据转换:在进行训练之前,需要将原始数据转换为机器可处理的格式。图像数据,可以使用图像处理技术进行特征提取或缩放操作,以便于模型的训练和推理;
文本数据,可以进行词汇化、分词和编码等处理,将其转换为数值表示形式输入到深度学习模型中。
数据标准化:为了确保数据的一致性和可比性,需要对数据进行标准化处理。包括对图像进行归一化或标准化,以使其具有相似的亮度、对比度和颜色分布。对于文本数据,可以进行词干化、停用词移除和词向量化等操作。
经过一系列数据清洗、转换、标准化后,可以帮助SIMA更好地去学习游戏中的物体、动作、交互等,从而提升整体的动作指令准确率。
研究人员表示,未来,会持续迭代SIMA的通用代理能力,希望可以在实际生活中帮助用户做更多的事情。
-
谷歌推出通用AI代理SIMA丨目前可以自动执行600多种动作,游玩复杂3D游戏
谷歌DeepMind的研究人员推出了一种面向3D环境的通用AI代理——SIMA。SIMA无需访问游戏的源代码,也不需要定制的API。只需要输入图像和用户提供的简单自然语言文本指令,SIMA就能像人类玩家一样执行走路、跑步、建造、打开地图等各种游戏中的操作。
2025-02-06 11:59:16 -
联合国通过首个全球性的AI决议:合理管理人工智能,消除不同地区AI技术发展不平衡的问题
当地时间3月21日,联合国大会未经表决通过了一项由美国主导的决议草案,强调在AI的设计、开发、部署和使用过程中保护个人数据并监控人工智能风险。
2025-02-06 11:39:03 -
高通发布骁龙7+第三代移动平台,将AI大模型端侧运行能力下放到骁龙7系列芯片
高通发布骁龙7+第三代移动平台,全面继承了第三代骁龙8的旗舰特性。将终端侧生成式AI引入骁龙7系列SoC,同时CPU性能提升15%,GPU性能提升45%。
2025-02-06 11:11:24 -
苹果CEO库克访华:接触百度,国行iPhone设备有望搭载文心一言大模型
近日,苹果CEO库克正在中国出席多项公开商业活动,并与多位政商业界人士会面。正在致力于将更多的AI大模型技术搬到iPhone手机上。
2025-02-06 09:51:38 -
凉了!开源AI绘画Stable Diffusion模型开发商Stability AI暴毙
知名的开源AI绘图大模型Stable Diffusion,其开发母公司Stability AI举行全体员工会议并宣布:Stable Diffusion大模型的核心研究团队已经集体提交了辞呈。
2025-02-06 09:29:24 -
阿里1号AI「员工」上岗,007写代码助攻大厂程序员!炸掉祖传屎山代码,Java丝滑改Python
阿里云最近入职的这位新员工,程序员们看了拍手叫好!每天,它都有数百万行代码被采用,单日推理次数超两千万。007敲代码,兢兢业业改bug,从不抱怨。它不抢程序员饭碗,主打辅助!
2025-02-06 09:07:51
-
商汤AI视频生成器如影使用方法_如影使用教程_AI视频生成测评
国内知名人工智能软件公司商汤科技近日宣布,“商汤如影SenseAvatar”数字人视频生成平台正式上线,产品愿景是“让每个人都可以轻松制作视频”,非常的直抒胸臆呀。
2024-12-17 03:24:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34