专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
TodayRss-海外稳定RSS
目录
今天看啥  ›  专栏  ›  机器之心

你敢信?GPT-5的电脑操作水平只比人类低2%了

机器之心  · 公众号  · AI  · 2025-10-04 11:35
    

主要观点总结

文章介绍了最近一段时间的人工智能热点之一——智能体(Agent),尤其是计算机使用智能体(CUA)。文章以Simular Research推出的框架Agent S为例,详细阐述了其技术改进和实验结果。其中,Agent S3在OSWorld基准测试上的性能达到了69.9%,超越了先前的最佳水平,并已经接近人类水平的72%。文章还介绍了智能体面临的核心瓶颈、并行扩展方法以及Agent S3如何引入Behavior Best-of-N (bBoN)框架来解决这些问题。

关键观点总结

关键观点1: 智能体是人工智能的一个热点,Agent S是CUA的典型代表之一。

Agent S通过技术改进和扩展,实现了性能的大幅提升,达到了接近人类水平的水平。

关键观点2: CUA面临的核心瓶颈是高方差,即任务执行过程中的不确定性。

为了解决这个问题,Agent S3引入了并行扩展和Behavior Best-of-N (bBoN)框架,通过多个智能体的执行结果选择最佳结果。

关键观点3: Agent S3的技术改进包括简化框架、引入原生代码智能体,以及使用行为叙事生成和行为最佳选择评判等方法。

这些改进共同带来了性能的提升,使Agent S3在OSWorld上的表现达到了69.9%的成功率。

关键观点4: 实验结果展示了Behavior Best-of-N (bBoN)框架的有效性。

与其他方法的对比实验表明,bBoN不仅大幅超越了现有方法,而且已经接近人类水平的能力。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照