专栏名称: CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

领英公司动态RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

ManualVLA：首个长程「生成–理解–动作」一体化模型，实现从最终状态自主生成说明书并完成操纵

CAAI认知系统与信息处理专委会 · 公众号 · AI媒体科技自媒体 · 2025-12-19 00:00

主要观点总结

北京大学、香港中文大学与至简动力团队提出了全新的「生成–理解–动作」一体化模型ManualVLA，解决了VLA模型在需要精确定义最终目标状态的长周期任务中的难题。该模型采用Mixture-of-Transformers (MoT)架构，实现了多模态手册生成与动作执行的紧密协同。通过实验验证，ManualVLA在现实场景任务中表现出显著优势，平均成功率相较于分层结构的最新基线方法提升约32%。

关键观点总结

关键观点1: 研究背景与挑战

近年来，VLA模型在机器人场景理解和泛化操作方面取得了显著进展，但在需要精确定义最终目标状态的长周期任务中，如乐高搭建和物体重排，仍面临高级规划与精确操作的协调难题。

关键观点2: ManualVLA方法陈述

ManualVLA让模型学会「自己生成说明书，再按说明书去执行动作」。在推理阶段，系统接收自然语言指令、当前场景图像和最终目标图像，由规划专家生成多模态手册，动作专家执行手册中的子目标。通过这种逐步推进的方式，长时序任务被拆解为短阶段，提高了模型的执行效率。

关键观点3: 架构设计

ManualVLA将Janus-Pro 1B拓展到MoT架构，形成统一VLA模型，集成「规划专家」和「动作专家」。规划专家处理图像信息时采用基于VQ的视觉分词器，动作专家采用基于扩散去噪的方法进行动作建模。

关键观点4: 实验验证

ManualVLA在长周期任务中的表现经过真机实验、仿真实验、消融实验和泛化实验的验证。在真实环境中，ManualVLA的任务完成率高于其他模型，表现出显著的优越性。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博