北大-灵初重磅发布具身VLA全面综述！一文看清VLA技术路线与未来趋势

机器之心 · 公众号 · AI · 2025-07-25 10:03

主要观点总结

随着多模态基础模型的发展，研究者开始探索将智能从数字世界延伸至物理空间，实现具身智能。视觉-语言-动作模型（VLA）是这一前沿方向之一，能够处理通用的视觉与语言输入，并生成实时动作。北京大学-灵初智能联合实验室从动作词元化视角提出统一理解VLA模型的新框架，综述系统分析了八种主流action token，探讨了不同动作表示背后的能力支撑、数据扩展策略和适用场景，并明确了未来架构趋势与关键挑战。灵初智能在加速推进VLA技术的产业化落地，将在WAIC 2025展示其VLA模型Psi R1的麻将机器人等实际场景应用。论文标题：A Survey on Vision-Language-Action Models: An Action Tokenization Perspective。

关键观点总结

关键观点1: 视觉-语言-动作模型（VLA）的发展

VLA模型通过处理视觉与语言输入，生成实时动作，是实现具身智能的关键路径。

关键观点2: 动作词元化视角的新框架

北京大学-灵初智能联合实验室提出从动作词元化视角理解VLA模型的新框架，系统分析了八种主流action token。

关键观点3: action token的类型与分析

综述论文对八种action token进行了分类梳理与分析，包括language description、code、affordance、trajectory、goal state、latent representation、raw action和reasoning。

关键观点4: VLA技术的产业化落地

灵初智能在加速推进VLA技术的产业化落地，其VLA模型Psi R1已在麻将机器人等实际场景中得到验证。

关键观点5: 未来研究方向与挑战

VLA研究正迈向通用智能的下一站，未来需关注模型、数据与硬件的协同发展，并确保安全性与人类对齐。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · [LG]《Geometry of Neural Reinforc-20250803060249

10 小时前

新机器视觉 · 同样的实验室(如浙大计算机），硕士们进了大厂拿高工资，为什么博士却要挤破头进高校？

18 小时前

爱可可-爱生活 · 本文颠覆性地提出了“机械论主题模型”(MTM)，它将主题建模的基-20250802060613

昨天

图灵人工智能 · 图灵奖得主Hinton与姚期智对谈：认为人类的意识特殊，那是危险的无稽之谈

昨天

量子位 · 对话语鲸 & 深言达意：将Demo做成千万级用户产品，创企如何从「Early Adopter」向「Early Majority」拓展

2 天前

卢诗翰 · 再说一个严肃的事，刚刚我说咪蒙水平极高，真不是阴阳怪气说反话。抛-20241006141905

10 月前

天天看余杭 · 阳性率上升！传染性非常强！极易发生变异！杭州疾控最新提醒

7 月前

波场TRON · 社区生态 | 波场TRON成为香港加密金融论坛2025的白金赞助商

4 月前

重庆之声 · 关注丨1小时→20分钟！永川至璧山高速公路建成通车

2 月前