CAAI认知系统与信息处理专委会成立于2014年,胡德文教授担任专委会主任,孙富春教授担任荣誉主任,方斌教授担任秘书长。专委会不断吸纳业界人才,会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  CAAI认知系统与信息处理专委会

ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

CAAI认知系统与信息处理专委会  · 公众号  · AI媒体 科技自媒体  · 2025-12-19 00:00
    

主要观点总结

北京大学、香港中文大学与至简动力团队提出了全新的「生成–理解–动作」一体化模型ManualVLA,解决了VLA模型在需要精确定义最终目标状态的长周期任务中的难题。该模型采用Mixture-of-Transformers (MoT)架构,实现了多模态手册生成与动作执行的紧密协同。通过实验验证,ManualVLA在现实场景任务中表现出显著优势,平均成功率相较于分层结构的最新基线方法提升约32%。

关键观点总结

关键观点1: 研究背景与挑战

近年来,VLA模型在机器人场景理解和泛化操作方面取得了显著进展,但在需要精确定义最终目标状态的长周期任务中,如乐高搭建和物体重排,仍面临高级规划与精确操作的协调难题。

关键观点2: ManualVLA方法陈述

ManualVLA让模型学会「自己生成说明书,再按说明书去执行动作」。在推理阶段,系统接收自然语言指令、当前场景图像和最终目标图像,由规划专家生成多模态手册,动作专家执行手册中的子目标。通过这种逐步推进的方式,长时序任务被拆解为短阶段,提高了模型的执行效率。

关键观点3: 架构设计

ManualVLA将Janus-Pro 1B拓展到MoT架构,形成统一VLA模型,集成「规划专家」和「动作专家」。规划专家处理图像信息时采用基于VQ的视觉分词器,动作专家采用基于扩散去噪的方法进行动作建模。

关键观点4: 实验验证

ManualVLA在长周期任务中的表现经过真机实验、仿真实验、消融实验和泛化实验的验证。在真实环境中,ManualVLA的任务完成率高于其他模型,表现出显著的优越性。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址: 访问原文地址 (快捷配置)
总结与预览地址:访问文章预览/总结
文章地址: 访问文章快照