专栏名称: 地平线HorizonRobotics
以“赋能机器,让人类生活更安全、更美好”为使命,地平线是行业领先的高效能智能驾驶计算方案提供商。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  地平线HorizonRobotics

CVPR 2025 | 通向自监督三维空间理解——基于高斯表示的语义占据预测算法GaussTR

地平线HorizonRobotics  · 公众号  · 科技自媒体  · 2025-03-14 18:46
    

主要观点总结

该文章介绍了一种基于基础模型对齐的稀疏高斯表征学习框架GaussTR,用于自监督三维语义占据预测。该方法通过结合稀疏高斯建模、可微分渲染和2D视觉基础模型知识迁移,实现了无需体素级标注的零样本预测。在Occ3D-nuScenes数据集上取得最先进性能,验证了基于基础模型知识迁移的3D表征学习有效性。

关键观点总结

关键观点1: GaussTR概述

文章提出了基于基础模型对齐的稀疏高斯表征学习框架GaussTR,用于自监督三维语义占据预测。该框架通过前馈生成稀疏高斯分布和可微分渲染的跨模态对齐范式,实现了高效的3D空间理解。

关键观点2: 算法架构

GaussTR的整体架构包括前馈高斯建模、基础模型对齐监督和开放词汇占据预测三个阶段。其中前馈高斯建模采用Transformer架构,通过可变形注意力聚合基础模型的局部特征,并预测每个查询对应的高斯参数。基础模型对齐监督通过可微分Gaussian Splatting将3D表征投影回2D视角进行对齐监督。开放词汇占据预测则利用CLIP共享的视觉-语言嵌入空间,实现零样本开放词汇预测。

关键观点3: 实验结果

在Occ3D-nuScenes数据集上的实验表明,GaussTR取得了最先进性能,相比现有方法提升了1.76mIoU。此外,GaussTR实现了零样本的开放词汇占据预测,验证了基础模型对齐的通用3D表征学习能力。可视化结果展示了GaussTR预测的高斯分布具有优异的场景结构和局部细节表现。

关键观点4: 未来展望

未来,作者希望进一步探索基于可微分渲染的跨模态对齐通用表征范式,并拓展至更广泛的3D感知任务。同时,随着更强大的视觉-语言基础模型的发展,作者期待构建更通用的3D语义表征,为自动驾驶、具身智能等领域提供更强大的3D感知能力。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照