今天看啥  ›  专栏  ›  arXiv每日学术速递

世界模型SOTA!华科&小米Genesis:跨模态时空一致性,更真实更可用!

arXiv每日学术速递  · 公众号  · 科技自媒体  · 2025-06-17 13:36
    

主要观点总结

论文《Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency》提出了一种用于联合生成多视角驾驶视频与激光雷达序列的统一框架。该框架能实现时空与跨模态一致性,并采用了DataCrafter进行结构化语义监督。

关键观点总结

关键观点1: 论文的主要贡献

提出了一个统一的多模态生成架构,采用统一的pipeline,使视频和LiDAR分支在共享的潜在空间内运行。通过一种新颖的跨模态调节机制,视觉和几何直接耦合,实现跨模态的一致时间演变和几何对齐。引入了DataCrafter进行结构化语义监督,提高了语义可控性。

关键观点2: 相关工作介绍

现有的驾驶场景生成方法通常侧重于单一模态生成数据,忽视了多模态生成的协同潜力,并且在将RGB视频与各种传感器数据对齐方面缺乏一致性。许多方法依赖于粗略空间先验为条件的布局到数据管道,这限制了它们捕获复杂场景动态和细粒度语义的能力。

关键观点3: 具体工作介绍

论文提出了Genesis架构,包括视频生成模型和激光雷达生成模型。视频生成模型致力于实现多视角视频的连贯生成,通过引入结构化BEV布局、语义控制图、DataCrafter模块等技术保障空间对齐、时间一致性与语义保真度。激光雷达生成模型致力于生成几何精确且时空连贯的点云序列,通过点云自动编码器与时空扩散模块的协同设计,结合跨模态语义条件实现多传感器数据的一致性生成。

关键观点4: 实验结果

论文在视频生成和激光雷达生成方面进行了大量实验,并展示了下游任务实验的结果。实验结果表明,论文提出的方法在视频和激光雷达指标上达到了当前水平,并对分割和3D检测等下游任务具有显著增益,验证了生成数据的语义保真度与实际应用价值。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照