专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
今天看啥  ›  专栏  ›  DeepTech深科技

Meta推出开源最新世界模型,运行速度是英伟达Cosmos的30倍

DeepTech深科技  · 公众号  · 科技媒体  · 2025-06-12 12:56
    

主要观点总结

Meta发布了新的开源世界模型V-JEPA 2和三个新基准测试,旨在帮助AI理解周围世界并预测情况发展。V-JEPA 2模型包括编码器和预测器两个组件,通过自监督学习方法进行训练。该模型在运动理解和人类动作预期任务中表现出卓越的能力,并且与语言模型对齐后,在多个视频问答任务上也展现了先进性能。此外,V-JEPA 2还展示了在零样本机器人规划中的潜力。然而,该模型也存在局限性,未来计划探索多模态JEPA模型,包括多种感官预测。

关键观点总结

关键观点1: Meta发布了新的开源世界模型V-JEPA 2,旨在帮助AI理解并预测周围世界的发展。

V-JEPA 2是基于视频进行训练的,拥有12亿参数,采用自监督学习方法。它包含编码器和预测器两个组件。模型已经展现出在理解和预测方面的关键能力。

关键观点2: V-JEPA 2在运动理解和人类动作预期任务中表现出卓越的能力。

该模型在Something-Something v2数据集上实现了77.3%的top-1准确率,在Epic-Kitchens-100数据集上达到了39.7%的recall-at-5分数。

关键观点3: V-JEPA 2与语言模型对齐后,在多个视频问答任务上展现了先进性能。

例如,在PerceptionTest和TempCompass上分别达到了84.0分和76.9分。

关键观点4: V-JEPA 2在零样本机器人规划中展示了潜力。

Meta展示了使用V-JEPA 2进行零样本机器人规划的新应用,在没有从环境中的机器人收集任何数据的情况下,实现了图像目标的物体拾取和放置。

关键观点5: V-JEPA 2存在一些局限性,未来计划探索多模态JEPA模型。

例如,该模型在预测动作时没有使用摄像头参数,且存在误差累积和搜索空间爆炸的问题。未来Meta团队计划探索多种感官预测的多模态JEPA模型。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照