主要观点总结
北京大学与香港中文大学的研究团队联合发布了名为Fast-in-Slow(FiS-VLA)的全新双系统视觉-语言-动作模型。该模型实现了高频响应与复杂推理的统一,在机器人操控领域取得重大技术突破。FiS-VLA将快速执行模块嵌入预训练视觉-语言模型中,实现快慢系统一体化的设计,具有异步运行和高泛化能力。该模型在仿真和真实机器人平台上取得了优异表现,控制频率高达117.7Hz。
关键观点总结
关键观点1: 研究背景和挑战
机器人操作系统的目标是在复杂环境中生成精确的控制信号。大规模的视觉-语言模型因其预训练能力被引入机器人领域,但其推理速度限制了高频控制任务的实用性。研究引入双系统理论,使用系统1进行快速决策,系统2进行深度推理。
关键观点2: Fast-in-Slow VLA (FiS-VLA) 模型的特点
FiS-VLA是一种创新的结构,将视觉语言模型(VLM)的末端模块重构为执行模块,形成一个统一的高效推理与控制模型。系统2处理图像和语言指令,输出指导特征;系统1以高频率响应感知输入,实现高效动作生成。
关键观点3: 架构设计
FiS-VLA基于Prismatic VLM架构,包括视觉编码器、轻量级3D tokenizer、大语言模型和若干MLP模块。系统1直接嵌入系统2的高维表示空间,形成协同结构。
关键观点4: 双系统协作
FiS-VLA的两个系统通过异步运行和频率比例控制协同工作。系统2负责语义理解和任务相关处理,系统1负责实时动作生成。两个系统的运行频率比例和动作预测视野是模型性能的关键。
关键观点5: 模型性能
FiS-VLA在仿真和真实机器人平台上取得了显著的成功率和控制频率。在仿真测试中平均成功率为69%,控制频率高达21.9Hz。在真实机器人平台上,平均成功率分别为68%和74%。此外,该模型还展示了良好的泛化能力。
免责声明
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。