专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

最新智能体自动操作手机电脑，10个榜单开源SOTA全拿下｜通义实验室

量子位 · 公众号 · AI · 2025-08-26 07:04

主要观点总结

Mobile-Agent团队推出Mobile-Agent-v3智能体框架，该框架能在手机、电脑端多个核心榜单上取得开源最佳成绩。新框架兼具基础能力与推理泛化能力，可以自动操作手机、电脑完成复杂任务，并在多智能体框架中无缝扮演不同角色。其训练出一个图形交互基础模型（GUI-Owl），该模型通过大规模并行任务执行和轨迹爬取，实现自我进化。文章详细介绍了GUI-Owl模型的训练离不开的数据生产模式、精准的界面元素定位、复杂任务规划、动作语义理解等内容，并指出强化学习在多智能体协同中的重要作用。实验结果证明，该框架在OSWorld动态环境中的成功率有显著提升。

关键观点总结

关键观点1: Mobile-Agent-v3智能体框架推出

兼具基础能力与推理泛化能力；能在手机、电脑端多个核心榜单上取得开源最佳成绩；可以自动完成复杂任务并在多智能体框架中无缝扮演不同角色。

关键观点2: GUI-Owl模型的训练

通过大规模并行任务执行和轨迹爬取实现自我进化；训练离不开的数据生产模式包括高质量任务生成模块、轨迹正确性判断模块、任务指南生成模块等。

关键观点3: 精准的界面元素定位

通过构建两类接地（grounding）任务数据，实现精准的界面元素定位，让AI理解图形界面。

关键观点4: 复杂任务规划与动作语义理解

通过构建任务规划数据和动作语义理解数据，使模型能够完成复杂任务和掌握“操作如何改变界面”。

关键观点5: 强化学习在多智能体协同中的作用

引入强化学习（RL）并构建一套高效、灵活的训练基础设施，使模型在真实交互中持续学习，解决长尾问题。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

AI寒武纪 · 抛弃Markdown！Claude Code 内部成员：使用HTML和Agent交流效果好到离谱

15 小时前

AI前线 · 38万应用暴露、2000+应用泄密！AI编程把“内网”变公网

18 小时前

量子位 · 量子位编辑作者招聘

20 小时前

爱可可-爱生活 · #xAI更名SpaceXAI# 要是把马斯克过去三年关于AI安全-20260508075726

昨天

新机器视觉 · 麦肯锡重磅拆解：人形机器人要量产，缺的不是AI，而是"关节"和"供应链"

2 天前

隆众资讯订阅号 · 纯碱 | 进口量下降国内市场淡稳调整

1 年前

艺术荐 · 每日一画丨Bruegel Pieter

1 年前

纳米医学进展 · 哈尔滨工业大学程子泳教授《AM》：一步法共生双金属过氧化物纳米颗粒诱导铁死亡/铜死亡激活cGAS-STING通路增强肿瘤免疫治疗

10 月前

仙桃电视台 · 四个“老伙伴” 回乡种麦冬

9 月前