VLA统一架构新突破：自回归世界模型引领具身智能

机器之心 · 公众号 · AI · 2025-07-10 12:26

主要观点总结

本文介绍了来自中国科学院自动化所和北京智源研究院的多个团队关于世界模型、自动驾驶和具身智能的研究进展。提出了一种全新的Unified Vision-Language-Action (UniVLA) 模型架构，该架构基于全离散、自回归机制，能够原生建模视觉、语言与动作信号。该模型在多个主流具身智能基准上刷新了多项纪录，展现出在真机操控和自动驾驶等现实场景中的广泛潜力。

关键观点总结

关键观点1: 研究团队和背景介绍

文章介绍了多个研究团队，包括王宇琪博士团队、张兆翔团队和北京智源研究院的王鑫龙团队，他们的研究方向涉及世界模型、自动驾驶感知与决策等。

关键观点2: UniVLA模型的特点

UniVLA模型是一种全新的视觉-语言-动作模型架构，基于全离散、自回归机制，能够原生建模视觉、语言与动作信号。该模型在训练过程中引入世界模型建模，从大规模视频中学习时序信息与因果逻辑。

关键观点3: UniVLA模型的性能表现

UniVLA模型在CALVIN、LIBERO、SimplerEnv等主流具身智能基准上全面刷新了多项纪录，展现出在真机操控和自动驾驶等现实场景中的广泛潜力。此外，该模型的后训练显著提升了下游决策性能，且无需依赖大量动作数据。

关键观点4: 研究展望和未来发展

文章展望了未来在VLA技术路径上的探索方向，包括构建视频版本的VLA架构、引入全离散的自回归训练范式以及与多模态强化学习的深度融合等。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

机器学习研究组订阅 · 13岁小孩哥当上CEO，22岁造独角兽！少年帮扎堆辍学，集结硅谷创业

18 小时前

新智元 · 奥特曼深夜「放鸽子」！不发GPT-5，竟是给7亿用户「防沉迷」？

昨天

人工智能产业链union · 【AI】ChatGPT「学习模式」火爆上线，一大波教育AI连夜被端！24小时导师免费用

昨天

宝玉xp · 不可否认提示词中是挺好的架构师需要注意的设计原则，但能通过提示词-20250804091844

2 天前

爱可可-爱生活 · 本文通过对55个有害子概念进行线性探测，颠覆性地揭示了它们在LL-20250804054709

2 天前

中国城乡金融报 · 图画新时代 | “中国碗”装满中国粮

10 月前

创策汇SH · 【青浦区】关于开展2024年青浦区专利工作试点示范单位评审会的通知

4 月前

FM1007福建交通广播 · 暴雨！冰雹！雷电！今日抵达福建！

3 月前

萧山日报 · 刚刚确认：大降温！雷雨大风马上到！台风路径指向浙江！杭州接下来……

1 月前