蚂蚁集团开源native GUI智能体UI-Venus：多项Benchmark取得SOTA性能表现

蚂蚁技术AntTech · 公众号 · 程序员 · 2025-08-19 14:02

主要观点总结

蚂蚁集团发布了基于多模态大模型的开源GUI智能体UI-Venus，它在GUI Benckmark数据集上取得了出色表现。UI-Venus融合了多模态理解、视觉-语言推理、动作规划与执行等关键技术，能自主操作各种操作系统完成复杂GUI任务。目前，UI-Venus在Grounding和Navigation任务上取得了显著成绩。其背后依托高质量数据生产管线和强化学习技术，以更低的训练成本获得更强性能。未来，蚂蚁集团将在GUI-Agent方向持续投入，探索更多技术突破和应用场景。

关键观点总结

关键观点1: UI-Venus是基于多模态大模型的开源GUI智能体，具有高效准确的GUI任务执行能力。

UI-Venus在多个权威的GUI Benckmark数据集上取得出色表现，展现了其强大的性能。

关键观点2: UI-Venus融合了多项关键技术，包括多模态理解、视觉-语言推理、动作规划与执行等，使其能够像人类一样“看懂”图形界面、“理解”任务目标。

这些技术的融合使得UI-Venus能够自主完成复杂的GUI任务，解放人类生产力。

关键观点3: UI-Venus在Grounding和Navigation任务上表现出色。

在Grounding任务上，UI-Venus在多个权威测评榜单上取得了亮眼成绩。在Navigation任务上，UI-Venus也取得了接近或达到SOTA的表现。

关键观点4: UI-Venus依托高质量数据生产管线和强化学习技术，以更低的训练成本获得更强性能。

UI-Venus采用了强化学习的技术路线，通过高质量数据生产管线，使用较少的数据达到了SOTA的水平。

关键观点5: 蚂蚁集团未来将在GUI-Agent方向上持续投入，探索更多技术突破和应用场景。

随着GUI-Agent能力的提升，它将在金融、客服、办公等场景中发挥更大价值，助力企业实现智能化升级，提升用户体验与运营效率。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博