专栏名称: arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

相关文章推荐

码小辫 · 今年程序员的就业市场崩溃了 · 9 小时前

新黄河 · 长沙一小区外墙脱落致21岁女子死亡：涉事小区 ... · 17 小时前

柴狗夫斯基 · 亏怕了？蔚来李斌：如果能穿越的话先做增程搞点钱…… · 昨天

中国妇女 · 已确认！是央视著名主持人海霞 · 昨天

江苏药品监管 · 连云港检查分局、审评核查连云港分中心精准服务 ... · 2 天前

今天看啥 › 专栏 › arXiv每日学术速递

新一代世界模型！GeoDrive：显式注入空间结构信息，问鼎SOTA（北大&理想）

arXiv每日学术速递 · 公众号 · 科技自媒体 · 2025-06-11 12:30

主要观点总结

GeoDrive是一款面向自动驾驶的新一代世界模型系统，解决了现有方法普遍依赖二维建模、缺乏三维空间感知的问题。它通过引入三维点云渲染过程，显著提升了模型的空间一致性与可控性。文章详细阐述了GeoDrive的三项关键技术创新，包括几何驱动的时序条件生成、动态编辑模块和结构增强的视频扩散生成架构。

关键观点总结

关键观点1: 几何驱动的时序条件生成

系统以单帧RGB图像为输入，借助MonST3R网络精准估计点云和相机位姿，结合用户提供的轨迹信息，逐帧进行投影生成，构建具有三维一致性的条件序列，确保场景结构连贯真实。

关键观点2: 动态编辑模块

该模块突破静态渲染的局限，通过融合2D边界框注释，支持对可移动物体的灵活位置调整，解决传统渲染中“场景冻结”的假设，在训练阶段显著提升多车交互场景的动态合理性和模拟真实度。

关键观点3: 结构增强的视频扩散生成架构

将渲染生成的条件序列与噪声特征拼接输入冻结的Video Diffusion Transformer（DiT），在保持光学生成质量的同时，引入结构上下文以增强三维几何保真度，实现内容与物理一致性的统一。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

码小辫 · 今年程序员的就业市场崩溃了

9 小时前

新黄河 · 长沙一小区外墙脱落致21岁女子死亡：涉事小区曾是“地王”，涉事楼栋曾申报维修

17 小时前

柴狗夫斯基 · 亏怕了？蔚来李斌：如果能穿越的话先做增程搞点钱……

昨天

中国妇女 · 已确认！是央视著名主持人海霞

昨天

江苏药品监管 · 连云港检查分局、审评核查连云港分中心精准服务助推中药1类新药参蒲颗粒获批上市

2 天前

新浪科技 · 【#蔚来第一季度营收99.1亿#】 6月6日，蔚来发布2024年-20240606181814

1 年前

潮人 · 引发热议的「Snoafer」，为何是后球鞋时代的「标准答案」？

1 年前

小胖看房 · 浦开云璟四期绿城代建！三四期最新户型图&实探航拍发布！建面约80-270㎡高层+洋房预备入市！

1 年前

棕榈大道本科申请 · 美国最好大学的本科生都选了什么专业？排第一的居然是……

1 年前

太星小升初 · 凭校内竞争进优质高中！延庆区2024初中校额到校分配名额公布！2025小升初家长速看

1 年前