专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

模拟大脑功能分化！北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

机器之心 · 公众号 · AI · 2025-07-12 10:11

主要观点总结

北京大学与香港中文大学的研究团队联合发布了名为Fast-in-Slow（FiS-VLA）的全新双系统视觉-语言-动作模型。该模型实现了高频响应与复杂推理的统一，在机器人操控领域取得重大技术突破。FiS-VLA将快速执行模块嵌入预训练视觉-语言模型中，实现快慢系统一体化的设计，具有异步运行和高泛化能力。该模型在仿真和真实机器人平台上取得了优异表现，控制频率高达117.7Hz。

关键观点总结

关键观点1: 研究背景和挑战

机器人操作系统的目标是在复杂环境中生成精确的控制信号。大规模的视觉-语言模型因其预训练能力被引入机器人领域，但其推理速度限制了高频控制任务的实用性。研究引入双系统理论，使用系统1进行快速决策，系统2进行深度推理。

关键观点2: Fast-in-Slow VLA (FiS-VLA) 模型的特点

FiS-VLA是一种创新的结构，将视觉语言模型（VLM）的末端模块重构为执行模块，形成一个统一的高效推理与控制模型。系统2处理图像和语言指令，输出指导特征；系统1以高频率响应感知输入，实现高效动作生成。

关键观点3: 架构设计

FiS-VLA基于Prismatic VLM架构，包括视觉编码器、轻量级3D tokenizer、大语言模型和若干MLP模块。系统1直接嵌入系统2的高维表示空间，形成协同结构。

关键观点4: 双系统协作

FiS-VLA的两个系统通过异步运行和频率比例控制协同工作。系统2负责语义理解和任务相关处理，系统1负责实时动作生成。两个系统的运行频率比例和动作预测视野是模型性能的关键。

关键观点5: 模型性能

FiS-VLA在仿真和真实机器人平台上取得了显著的成功率和控制频率。在仿真测试中平均成功率为69%，控制频率高达21.9Hz。在真实机器人平台上，平均成功率分别为68%和74%。此外，该模型还展示了良好的泛化能力。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · Agentic Web：互联网新纪元，AI Agent 驱动的自-20250804064949

昨天

爱可可-爱生活 · [LG]《Retrieve-Augmented Generati-20250804055606

昨天

量子位 · Hinton能重新坐下了，什么时候开始的？

2 天前

爱可可-爱生活 · 本文开创性地提出了一套全自动流程，用于提取代表LLM性格的“人格-20250803054503

2 天前

爱可可-爱生活 · AI Native 产品的用户体验挑战，已从“审美”跃升为深刻的-20250802193549

3 天前

智能涌现 · Sora负责人揭秘技术探索之路：成功的研究者，往往没有经过传统的研究训练

1 年前

致众医疗器械资讯 · 【上海】医疗器械经营管理办法实施细则征求意见中

1 年前

罗马诺plus · 转会消息:巴萨愿意冬窗卖德容！吉马良斯想加盟曼城!（12月14日）

7 月前

大皖新闻 · 日本流感已超950万人！有人发烧到去世仅4天

6 月前

IT报 · 当AI购物变成"人工智障"：4000万美元骗局背后的荒诞真相

3 月前