主要观点总结
本文提出一种新型的两阶段轨迹规划框架Plan-R1,用于安全且可行的自动驾驶轨迹规划。受到大型语言模型成功的启发,将轨迹规划问题转化为原则对齐的序列预测任务。通过专家数据的运动token预测进行自回归预训练,并使用基于规划的奖励进行强化学习微调,使预测结果与规划原则一致。在nuPlan基准上的实验表明,Plan-R1显著提高规划的安全性和可行性,实现最先进的性能。
关键观点总结
关键观点1: 新的视角将轨迹规划问题转化为原则对齐的序列预测任务。
本文首次提出将轨迹规划问题转化为原则对齐的序列预测任务,实现了行为学习和规划原则的对齐解耦。
关键观点2: 引入两阶段轨迹规划框架Plan-R1。
Plan-R1结合了自回归预训练和强化学习微调,以符合规划原则。通过预训练捕获专家演示的多模态分布,然后通过强化学习微调自车策略。
关键观点3: 设计可解释的、基于规则的奖励函数。
这些奖励函数用于捕获基本的规划原则,如可行驶区域合规性、避障、速度限制合规性和驾驶舒适性,以指导强化学习微调。
关键观点4: 在nuPlan基准上实现SOTA性能。
实验结果表明,Plan-R1显著提高规划轨迹的安全性和可行性,特别是在反应式闭环仿真环境中优于现有的规划器。
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。