今天看啥  ›  专栏  ›  机器之心

模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作

机器之心  · 公众号  · AI  · 2025-07-12 10:11
    

主要观点总结

北京大学与香港中文大学的研究团队联合发布了名为Fast-in-Slow(FiS-VLA)的全新双系统视觉-语言-动作模型。该模型实现了高频响应与复杂推理的统一,在机器人操控领域取得重大技术突破。FiS-VLA将快速执行模块嵌入预训练视觉-语言模型中,实现快慢系统一体化的设计,具有异步运行和高泛化能力。该模型在仿真和真实机器人平台上取得了优异表现,控制频率高达117.7Hz。

关键观点总结

关键观点1: 研究背景和挑战

机器人操作系统的目标是在复杂环境中生成精确的控制信号。大规模的视觉-语言模型因其预训练能力被引入机器人领域,但其推理速度限制了高频控制任务的实用性。研究引入双系统理论,使用系统1进行快速决策,系统2进行深度推理。

关键观点2: Fast-in-Slow VLA (FiS-VLA) 模型的特点

FiS-VLA是一种创新的结构,将视觉语言模型(VLM)的末端模块重构为执行模块,形成一个统一的高效推理与控制模型。系统2处理图像和语言指令,输出指导特征;系统1以高频率响应感知输入,实现高效动作生成。

关键观点3: 架构设计

FiS-VLA基于Prismatic VLM架构,包括视觉编码器、轻量级3D tokenizer、大语言模型和若干MLP模块。系统1直接嵌入系统2的高维表示空间,形成协同结构。

关键观点4: 双系统协作

FiS-VLA的两个系统通过异步运行和频率比例控制协同工作。系统2负责语义理解和任务相关处理,系统1负责实时动作生成。两个系统的运行频率比例和动作预测视野是模型性能的关键。

关键观点5: 模型性能

FiS-VLA在仿真和真实机器人平台上取得了显著的成功率和控制频率。在仿真测试中平均成功率为69%,控制频率高达21.9Hz。在真实机器人平台上,平均成功率分别为68%和74%。此外,该模型还展示了良好的泛化能力。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照