今天看啥  ›  专栏  ›  新机器视觉

ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型

新机器视觉  · 公众号  · AI  · 2025-07-21 21:30
    

主要观点总结

本文介绍了DexVLG:一种大规模视觉-语言-抓取模型,用于根据语言指令通过单视角RGBD输入预测灵巧抓取姿态。为了应对数据挑战,文章提出了一个大规模的部分感知功能性灵巧抓取数据集DexGraspNet 3.0。使用此数据集训练的DexVLG模型具有强大的零样本泛化能力,并在模拟和真实世界场景中均实现了成功的抓取。

关键观点总结

关键观点1: DexVLG模型的优势和特点

DexVLG是一个大型视觉-语言-抓取模型,能够根据语言指令预测灵巧抓取姿态。它通过单视角点云输入,实现了对桌面物体的功能性抓取。模型拥有数十亿参数,并在大规模数据集上进行端到端的微调。在模拟和真实世界实验中,DexVLG表现出强大的性能,具有超过76%的零样本执行成功率和最先进的部分抓取精度。

关键观点2: DexGraspNet 3.0数据集的特点

DexGraspNet 3.0是一个大规模的部分感知功能性灵巧抓取数据集。它包含了1.7亿个灵巧抓取姿态,涉及174,000个物体的语义部分,并配有详细的part级描述。每个抓取姿态都在基于物理的模拟器中进行了验证,并配有语义标题。数据集的可视化和统计结果展示了其规模和丰富性。

关键观点3: 模型与数据集的应用

DexVLG和DexGraspNet 3.0的应用旨在释放机器人的智能能力。为了应对数据挑战,提出了大规模的部分感知功能性灵巧抓取数据集DexGraspNet 3.0,为训练视觉-语言-抓取模型提供了丰富的数据资源。基于该数据集训练的DexVLG模型在模拟和真实世界场景中均实现了成功的抓取,展示了其在复杂机器人任务中的泛化能力。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照