今天看啥  ›  专栏  ›  AI生成未来

亿级短视频数据突破具身智能Scaling Law!Being-H0提出VLA训练新范式

AI生成未来  · 公众号  · 科技创业  · 2025-07-25 00:01
    

主要观点总结

本文主要介绍了北京大学卢宗青团队在解决机器人从看懂世界到理解意图再到做出动作的技术难题方面的创新成果。针对真机数据的匮乏导致的视觉-语言-动作(VLA)模型发展瓶颈问题,该团队提出了创新性解决方案。通过利用海量人类操作视频提取手部运动轨迹,构建了规模达亿级的训练数据集,并成功训练出首个基于人类视频手部数据的大规模预训练VLA模型——Being-H0。该模型能实现从人类手部运动到机器人动作空间的精确映射,大幅提升了机器人操作任务成功率和真机样本效率。此外,研究团队还通过真实机器人实验验证了方法的有效性。

关键观点总结

关键观点1: 团队利用海量人类操作视频提取手部运动轨迹,构建了规模达亿级的训练数据集。

为了解决真机数据匮乏的问题,研究团队通过构建大规模训练数据集的方法,使用了人类操作视频中的手部运动轨迹,规模达到了亿级。

关键观点2: 提出了“物理指令微调”方法框架,实现了从人类手部运动到机器人动作空间的精确映射。

该研究团队创新性地提出了物理指令微调方法框架,这一框架能够消除不同数据源之间的异构性,实现2D视频到三维空间的物理对齐,从而建立从人类动作到机器人操作的高效转换通道。

关键观点3: 成功训练出首个基于人类视频手部数据的大规模预训练VLA模型——Being-H0。

基于上述方法框架和大规模数据集,研究团队成功训练出了Being-H0模型,该模型在机器人操作任务中表现出色,显著提升了任务成功率和真机样本效率。

关键观点4: 开展了全面的真实机器人实验以验证方法有效性。

研究团队不仅进行了常规预训练任务评估,还开展了真实机器人实验以验证方法的有效性。实验结果表明,Being-H0模型在各项任务中均表现出稳定的性能优势。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照