百度X-Driver：可闭环评测的VLA

自动驾驶之心 · 公众号 · 科技媒体自动驾驶 · 2025-12-28 11:28

主要观点总结

本文介绍了X-Driver，一个基于视觉-语言模型（VLA）的闭环自动驾驶框架，通过引入思维链（CoT）推理机制，在CARLA仿真环境中实现了端到端的闭环评测。研究表明，CoT能显著提升驾驶决策的准确性与安全性，但当前闭环成功率仍较低（约20%），距离实际应用尚有差距，目前更适合作为慢系统提供规划初值。

关键观点总结

关键观点1: 提出X-Driver：首个支持闭环评测的VLA自动驾驶框架

X-Driver由哈工大和百度联合提出，是专为闭环自动驾驶设计的多模态大语言模型（MLLM）框架，利用CARLA仿真环境进行闭环测试（Bench2Drive），通过输出waypoints实现对车辆的实际控制，弥补了此前如EMMA等模型仅在开环下评估的不足，推动VLA从感知向决策控制延伸。

关键观点2: 引入结构化思维链（CoT）增强推理能力

X-Driver采用结构化CoT推理机制，将驾驶任务分解为对象检测、红绿灯识别、交通标志理解、车道分析等子任务，通过监督微调（SFT）训练模型生成分步推理过程，提升对动态交通参与者（行人、骑行者、车辆）行为预测的准确性和交通规则遵守能力，减少幻觉与错误决策。

关键观点3: 闭环实验验证CoT有效性但仍面临性能瓶颈

在Bench2Drive数据集上，X-Driver使用Driving Score和Success Rate作为核心指标，实验表明引入CoT可显著提升驾驶质量；然而整体成功率仍处于约20%的较低水平，且依赖仿真数据（非真实传感器），存在现实迁移Gap，说明当前VLA直接控车尚不成熟，更适合用于辅助下游规划模块生成初始轨迹。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博