主要观点总结
本文介绍了Figure公司在官网上发布的新型通用型视觉语言动作模型Helix,该模型能够将语言、视觉、动作融合进行任务完成,支持人形机器人上半身使用,具有极强的泛化能力,需要预训练数据集少。Helix是第一个运行在人形机器人上的端到端VLA大模型,具有一系列突破,包括全上半身控制、多机器人协作、对象泛化能力、一套神经网络权重控制等。文章还介绍了Helix的训练方法和系统架构,包括系统1和系统2的运作模式。最后给出了报告的作者和一些重要免责声明。
关键观点总结
关键观点1: Helix模型特点
Helix是一款通用型视觉语言动作模型,适用于人形机器人上半身使用,具有极强的泛化能力,能同时使两个机器人协调工作。它是第一个运行在人形机器人上的端到端VLA大模型,具有一系列突破,如全上半身控制、多机器人协作等。
关键观点2: Helix的系统架构
Helix采用创新的“系统1,系统2”双系统模型架构,系统2是一种经过训练的VLM,负责场景理解和语言理解,实现跨对象和上下文的广泛泛化;系统1是一种快速反应的视觉运动策略,负责动作的输出。
关键观点3: Helix的训练方法和效率
Helix的训练非常高效,用500小时的高质量监督数据完成了强大的对象泛化能力。这套系统使得Helix能够表现出很多异于一般模型的能力,如多机器人协作和强大的对象泛化能力。
关键观点4: 报告发布机构和免责声明
报告由中信建投证券股份有限公司发布,报告中所述内容仅面向机构类专业投资者。报告免责声明提示订阅号内容不构成任何投资建议,且任何机构或个人不得以任何形式转发、翻版、复制本订阅号发布的全部或部分内容。
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。