今天看啥  ›  专栏  ›  新机器视觉

告别绝对坐标系!PRoPE编码革新多视角Transformer,首次统一内外参编码

新机器视觉  · 公众号  · AI  · 2025-08-03 21:53
    

主要观点总结

本文研究了在多视角计算机视觉任务中,如何将相机几何信息编码到视觉Transformer中以提升性能。通过对比不同的相机条件化技术,发现相对位置编码比绝对位置编码更具优势,尤其是作者提出的投影位置编码(PRoPE)。PRoPE将完整的相机几何信息建模为相对位置关系,注入到Transformer的自注意力机制中,显著提升了多视角Transformer在多个任务和不同模型架构下的性能与泛化能力,尤其在处理变化内参和分布外输入时表现突出。

关键观点总结

关键观点1: 不同相机条件化技术对比

对比了像素对齐的、基于token Level的射线图绝对编码和基于注意力Level的SE(3)相对编码。发现相对编码(尤其是PRoPE)比绝对编码有优势。

关键观点2: PRoPE的提出与特性

PRoPE是一种新型相对位置编码方法,将完整的相机视锥几何信息建模为相对位置关系,注入到Transformer的自注意力机制中。它具有全局帧不变性、可简化为相对SE(3)编码和可退化为RoPE等特性。

关键观点3: 实验结果与提升

实验结果表明,PRoPE在多个任务和不同模型架构下均显著提升了性能。在新视角合成任务中,PRoPE在PSNR、SSIM等指标上优于其他方法;在立体深度估计和判别性空间认知任务中,PRoPE也显著提升了模型性能。且在不同模型规模下,PRoPE依然带来了性能提升,且计算开销几乎可以忽略。

关键观点4: 局限性总结

PRoPE依赖于准确的相机内参和外参作为输入,若输入参数存在噪声或误差,可能影响模型性能。且目前主要面向已知相机几何的任务,不适用于无相机参数的纯视觉任务。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照