ICCV2025 | DexVLG：大规模灵巧视觉-语言-抓取模型

新机器视觉 · 公众号 · AI · 2025-07-21 21:30

主要观点总结

本文介绍了DexVLG：一种大规模视觉-语言-抓取模型，用于根据语言指令通过单视角RGBD输入预测灵巧抓取姿态。为了应对数据挑战，文章提出了一个大规模的部分感知功能性灵巧抓取数据集DexGraspNet 3.0。使用此数据集训练的DexVLG模型具有强大的零样本泛化能力，并在模拟和真实世界场景中均实现了成功的抓取。

关键观点总结

关键观点1: DexVLG模型的优势和特点

DexVLG是一个大型视觉-语言-抓取模型，能够根据语言指令预测灵巧抓取姿态。它通过单视角点云输入，实现了对桌面物体的功能性抓取。模型拥有数十亿参数，并在大规模数据集上进行端到端的微调。在模拟和真实世界实验中，DexVLG表现出强大的性能，具有超过76%的零样本执行成功率和最先进的部分抓取精度。

关键观点2: DexGraspNet 3.0数据集的特点

DexGraspNet 3.0是一个大规模的部分感知功能性灵巧抓取数据集。它包含了1.7亿个灵巧抓取姿态，涉及174,000个物体的语义部分，并配有详细的part级描述。每个抓取姿态都在基于物理的模拟器中进行了验证，并配有语义标题。数据集的可视化和统计结果展示了其规模和丰富性。

关键观点3: 模型与数据集的应用

DexVLG和DexGraspNet 3.0的应用旨在释放机器人的智能能力。为了应对数据挑战，提出了大规模的部分感知功能性灵巧抓取数据集DexGraspNet 3.0，为训练视觉-语言-抓取模型提供了丰富的数据资源。基于该数据集训练的DexVLG模型在模拟和真实世界场景中均实现了成功的抓取，展示了其在复杂机器人任务中的泛化能力。