腾讯开源AppAgent代理大模型:无需人工介入,可对手机APP进行拟人化的交互操作
近日,腾讯研究团队开源了一款基于大语言模型的,用于手机端执行复杂任务的多模态智能代理框架——AppAgent。
据悉,AppAgent的功能与AutoGPT等智能代理类似,不依赖于操作系统的后台访问,而是通过UI界面进行点击、滑动等拟人化操作,与App进行交互操作。
例如:AppAgent可以帮助用户自动填写Gmail内容,并发送邮件。所以,也可以看成手机端的智能RPA(机器人流程自动化)或智能“按键精灵”。
AppAgent功能展示
为验证该框架的性能,研究人员在10个不同类别的应用程序上测试了50项任务,涵盖社交媒体、邮件、地图、购物等应用,以及图像编辑等复杂功能。
结果显示,AppAgent适应性强、学习和操作效率高,可以处理不同领域的APP任务。
传统的手机助手如Siri,主要是通过系统后端访问和函数调用来实现自动化操作。这种方式有一个很大弊端,就是需要访问用户的隐私、敏感数据,可能会出现很严重的数据安全问题。
而AppAgent采用了一种和RPA类似的方法,通过点击、滑动等模拟方式来操作APP,无需访问任何敏感数据,同时加上了大语言模型的理解和学习能力,使其效果更加出色以及增强适配性。
多种学习模式
为了增强AppAgent的学习和适配能力,采用了自主探索和观察人类示范两种模式,也是AppAgent的核心模块之一。
1)自主探索,在这个过程中,AppAgent与应用程序进行交互,并尝试执行各种操作,例如,点击按钮、滑动屏幕等。
通过与应用程序的交互,代理能够观察到不同的反馈和结果,并从中学习到如何正确地操作应用程序。这种自主探索的学习方法使代理能够逐步积累知识和经验,建立起一个关于应用程序操作的知识库。
2)观察人类示范,AppAgent会观察人类用户在操作应用程序时的准确行为。通过分析和理解人类的示范行为,代理可以学习到正确的应用程序操作方式。
这种观察人类示范的学习方法使代理能够更快地学习和适应新的应用程序,因为它可以直接借鉴人类用户的经验和技巧。也可以理解成大模型中的,人类反馈强化学习过程。(RLHF)
通过这两种学习模式,AppAgent可以学习到应用程序的界面结构、功能和操作规则。这样的学习方法使得代理能够在不同的应用程序之间执行复杂任务,并在真实世界的环境中展示出高效和熟练的操作能力。
视觉理解
这个模块相当于AppAgent的“眼睛”,主要用于接收和识别UI界面元素。首先根据 XML 信息提取每个界面元素的唯一 ID 或自动生成 ID,然后在截图中用透明数字对界面元素进行标注,可有效提高AppAgent操作应用程序流程的准确性。
此外,视觉理解模块还可以利用机器视觉,进行图片对象和语义特征的提取,例如,识别图片内容、界面控件等,为后续的大脑、执行提供支持。
决策和执行模块
执行模块相当于AppAgent的“四肢”,定义了智能代理与界面交互时的基本操作动作,例如,点击、滑动、长按等拟人化触控操作。
执行模块还定义了“输入文本”和“返回上级页面”等辅助操作。这些操作与各应用程序的界面属性匹配,可以很好地完成用户交互模拟,为整个框架提供了一致清晰地交互规范。
决策模块相当于AppAgent的“大脑”,在接收到任务指令后,会根据探索文档中的知识库进行任务分析,然后执行。详细流程如下:
1)观察当前界面元素和状态
2)思考下一步应采取的操作
3)执行选择的操作动作
4)总结并记录本轮执行结果
在这个迭代决策过程中,大脑模块会充分利用前面两种学习模式积累的经验,以保证智能代理执行任务的高效性和准确性。
开源地址:https://github.com/mnotgod96/AppAgent
-
腾讯开源AppAgent代理大模型:无需人工介入,可对手机APP进行拟人化的交互操作
AppAgent的功能与AutoGPT等智能代理类似,不依赖于操作系统的后台访问,而是通过UI界面进行点击、滑动等拟人化操作,与App进行交互操作。
2025-02-21 14:30:12 -
最新研究表明:ChatGPT提供的建议普遍比人类专家更全面更有帮助,但是大多数人们更愿意接纳人类建议
最近一项研究表明,ChatGPT 提供的建议相比较人类专家提供的回复更平衡、更全面、更善解人意、更有帮助。
2025-02-21 14:04:52 -
AI产业进入新阶段,大模型竞争或激发创新浪潮
近段时间,随着深度求索公司(DeepSeek)发布其最新开源模型DeepSeek-R1在国内外引发热烈关注,百度智能云、腾讯云、阿里云、华为云等多平台宣布上线DeepSeek旗下模型。业内人士认为,DeepSeek的新进展透露出2025
2025-02-21 14:03:09 -
Pika 1.0面向所有用户开放使用丨vivo新一代智能手表WATCH 3将支持AI绘制表盘丨微软上线Copilot安卓APP
【AI奇点网2023年12月27日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-21 13:44:01 -
银河证券:DeepSeek的技术颠覆带来的是AI行业的多元化,有望加速AI行业的普及繁荣
每经快讯,银河证券研报认为,DeepSeek通过算法及工程创新,显著降低成本。结合银河证券对芯片、硬件、软件、应用端等的影响分析,DeepSeek的技术颠覆带来的是AI行业的多元化,有望加速AI行业的普及繁荣。建议关
2025-02-21 13:40:54 -
开源版Gemini诞生_全能多模态模型Emu2登热榜_最新Emu2
最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,一口气刷新多项SOTA。
2025-02-21 13:21:23
-
AI视频后期消除对象神器ProPainter:一涂一抹,视频轻松移除指定对象丨本地离线一键部署
今天给大家介绍一款超强的一键删除视频内的移动物体和去除视频水印的工具ProPainter。本地部署比较麻烦,已经为大家制作好了离线整合包,解压即用。
2024-12-19 17:43:32 -
快手「可灵AI」全面开放内测,国际版上线丨Mistral发布1230亿Large 2旗舰模型丨OpenAI免费提供GPT-4o微调
【AI奇点网2024年7月25日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-14 11:04:50 -
10年缘分说散就散:Ilya Sutskever官宣从OpenAI离职,麾下的“超级对齐团队”负责人也一并离职
5月14日,OpenAI 联合创始人、首席科学家 Ilya Sutskever 发推文对外宣告离职。作为联合创始人历经供职十载,OpenAI初创团队还是走散了
2025-01-26 13:54:56 -
爆火Sora震惊威尔·史密斯,真人整活吃意面视频丨OpenAI技术路线或早在1月被成功预言
威尔·史密斯的这段视频,把全网都骗了!其实Sora的技术路线,早已被人预言了。李飞飞去年就用Transformer做出了逼真的视频。但只有OpenAI大力出奇迹,跑在了所有人前面。
2025-02-13 09:47:49 -
openai取消每日限制_GPT-4 turbo取消每日限制
2月17日,OpenAI在社交平台宣布,取消了GPT-4 Turbo的所有每日限制,并将速率限制提升1倍。现在,每分钟可处理高达150万TPM的数据。
2025-02-13 10:38:31 -
商汤「日日新4.0」大模型测评:性能逼近GPT-4,全新「Assistants API」能力连OpenAI都只能自叹不如
近日,商汤官宣新一代大模型「日日新4 0」。大模型体系全面升级,不仅如此,商汤还领先推出全球首个支持不同模态下实现能力调用的Assistants API
2025-02-13 11:37:00 -
痛失2亿港元!警方通报:香港一跨国公司惨遭「AI换脸」线上诈骗,公司上下竟无一人察觉
据香港媒体报道,??香港警方披露境内首宗多人换脸AI技术诈骗案,一家总部位于英国的跨国公司的香港分公司被AI换脸技术的一段视频,直接骗走2亿港元。
2025-02-13 12:49:36 -
hugging face开源平替_Hugging Chat Assistant最新上线
抱抱脸新推出了OpenAI的GPT商店开源平替,“Hugging Chat Assistant”,也瞄准了让用户免费制定自定义聊天机器人。该软件完全免费,无需像OpenAI那样不开会员就被拒之门外。
2025-02-14 10:04:00 -
360 AI智能搜索APP上架移动应用商店:基于搜索结果快捷生成可追溯的整合型答案
“360 AI搜索”移动APP在国内的各大手机应用商城上线。这是一款免费的智能搜索工具软件,基于360自研的“360智脑”大模型开发。
2025-02-14 16:29:24 -
真实降维打击!Sora横向对比Runway、Pika、AnimateDiff、LeonardoAI四款主流AI视频生成模型
近日,国外一名创作者利用Sora官网上提供的提示词,比较了目前同赛道的几款竞品Runway Gen-2、AnimateDiff、Pika,LeonardoAI四款AI工具的生成效果。
2024-12-13 19:07:36