深扒了学术界和工业界的「空间智能」，更多的还停留在表层......

自动驾驶之心 · 公众号 · 科技媒体 · 2025-12-28 11:28

主要观点总结

本文主要介绍了空间智能在自动驾驶领域的应用和发展，包括世界模型、多模态推理、三维物理实体的实时数字孪生和具身融合等方面。文章还提到了工业界在自动驾驶架构设计上向端到端的VLA架构演进的趋势以及一些公司的相关实践，如Waymo的EMMA模型、DeepRoute.ai的可解释VLA架构、MiMo-Embodied统一基础模型等。

关键观点总结

关键观点1: 空间智能在自动驾驶中的应用

空间智能是智能体与物理世界交互的核心基础，涉及对空间信息（位置、距离、方位、形状、运动、拓扑关系等）的感知、表征、推理、决策与交互。今天自动驾驶之心就与大家盘点一下自驾领域内和空间智能相关的工作，主要包括世界模型、多模态推理、三维物理实体的实时数字孪生和具身融合等方面。

关键观点2: 世界模型在重构物理世界的预演能力

世界模型通过潜在扩散技术，将自车动力学、道路语义及多智能体交互作为控制条件，生成符合物理规律且时空一致的驾驶视频。GAIA-2和GAIA-3模型是Wayve提出的面向自动驾驶的多视图生成式世界模型，具有物理因果结构表征能力。

关键观点3: 多模态推理实现从语义描述到几何推理的突破

多模态推理通过将场景布局、物体关系及物理先验显式编码为网格语义，解决大模型依赖语言捷径、缺乏真实几何推理能力的问题。SIG和OmniDrive等研究实现了结构化几何推理和三维空间理解与规划。

关键观点4: 三维物理实体的实时数字孪生技术

DrivingRecon和VR-Drive等模型通过直接从环视视频中预测4D高斯参数，结合动静解耦技术，实现了高效、高保真的自动驾驶场景动态重建与多任务仿真应用。

关键观点5: 具身融合打破“车”与“人”的空间隔阂

MiMo-Embodied是全球首个开源跨具身通用大模型，实现了自动驾驶与具身智能的深度融合。DriveGPT4-V2则通过多视角视觉标记器实现闭环控制，直接输出底层物理指令。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博