爆拉UniAD近40%，推理提升3倍！UAD：全新纯视觉端到端SOTA（问鼎nuScenes）

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-07-09 00:59

主要观点总结

本文提出了一种基于视觉的端到端自动驾驶方法（UAD），该方法大幅超越了UniAD近40%。文章介绍了动机、领域背景、UAD方法介绍、实验对比等内容。

关键观点总结

关键观点1: 动机和背景介绍

当前端到端自动驾驶方法仍模仿典型驾驶堆栈中的模块化架构，这些模型通过精心设计的监督感知和预测子任务为定向规划提供环境信息，尽管取得了突破性的进展，但这种设计也存在一些缺点，如需要大量高质量的3D标注作为监督，给训练数据的扩展带来了重大障碍，以及每个子模块在训练和推理中都涉及大量的计算开销。

关键观点2: UAD方法的主要特点

UAD提出了一种使用无监督agent的E2EAD框架，解决上述问题。首先，设计了一种新颖的角度感知预训练任务，以消除对标注的需求。该预训练任务通过预测角度空间的目标性和时间动态来模拟驾驶场景，无需手动标注。其次，提出了一种自监督训练策略，该策略学习在不同增强视图下预测轨迹的一致性，以增强转向场景中的规划鲁棒性。

关键观点3: UAD的性能和优势

UAD在nuScenes的平均碰撞率上相对于UniAD实现了38.7%的相对改进，并在CARLA的Town05 Long基准测试中在驾驶得分上超过了VAD 41.32分。此外，所提出的方法仅消耗UniAD 44.3%的训练资源，并在推理中运行速度快3.4倍。创新设计不仅展示了相较于监督对手无可争辩的性能优势，而且在数据、训练和推理方面也具有前所未有的效率。

关键观点4: UAD方法的具体组成

UAD框架由两个基本组件组成：1) 角度感知预训练任务，旨在以无监督的方式将E2EAD从昂贵的模块化任务中解放出来；2) 方向感知规划，学习增强轨迹的自监督一致性。具体来说，UAD使用预训练任务对驾驶环境进行建模，通过引入角度查询来提取特征和预测目标性。此外，为了驾驶本质上是一个动态和连续的过程，提出了一个角度梦境解码器来编码时间知识。