今天看啥  ›  专栏  ›  机器之心

北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势

机器之心  · 公众号  · AI  · 2025-07-25 10:03
    

主要观点总结

随着多模态基础模型的发展,研究者开始探索将智能从数字世界延伸至物理空间,实现具身智能。视觉-语言-动作模型(VLA)是这一前沿方向之一,能够处理通用的视觉与语言输入,并生成实时动作。北京大学-灵初智能联合实验室从动作词元化视角提出统一理解VLA模型的新框架,综述系统分析了八种主流action token,探讨了不同动作表示背后的能力支撑、数据扩展策略和适用场景,并明确了未来架构趋势与关键挑战。灵初智能在加速推进VLA技术的产业化落地,将在WAIC 2025展示其VLA模型Psi R1的麻将机器人等实际场景应用。论文标题:A Survey on Vision-Language-Action Models: An Action Tokenization Perspective。

关键观点总结

关键观点1: 视觉-语言-动作模型(VLA)的发展

VLA模型通过处理视觉与语言输入,生成实时动作,是实现具身智能的关键路径。

关键观点2: 动作词元化视角的新框架

北京大学-灵初智能联合实验室提出从动作词元化视角理解VLA模型的新框架,系统分析了八种主流action token。

关键观点3: action token的类型与分析

综述论文对八种action token进行了分类梳理与分析,包括language description、code、affordance、trajectory、goal state、latent representation、raw action和reasoning。

关键观点4: VLA技术的产业化落地

灵初智能在加速推进VLA技术的产业化落地,其VLA模型Psi R1已在麻将机器人等实际场景中得到验证。

关键观点5: 未来研究方向与挑战

VLA研究正迈向通用智能的下一站,未来需关注模型、数据与硬件的协同发展,并确保安全性与人类对齐。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照