专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

复旦腾讯联手攻克4D检测难题，DetAny4D实现端到端时序一致性目标感知

我爱计算机视觉 · 公众号 · AI媒体科技自媒体 · 2025-11-26 16:09

主要观点总结

本文介绍了论文DetAny4D: Detect Anything 4D Temporally in a Streaming RGB Video，该论文针对连续视频流中的3D目标检测问题提出了一个名为DetAny4D的新框架。论文首先构建了大规模4D检测数据集DA4D，并在此基础上提出了端到端的4D检测模型DetAny4D，旨在解决当前方法存在的时序信息缺失和流程复杂等问题。模型通过特征提取器提取每一帧的视觉特征，并利用时空解码器建立时序建模，同时设计了多任务头进行端到端的训练。通过一系列的训练策略和损失函数的设计，模型能够实现任意长度视频序列的输入，并有效学习时序一致性。实验结果证明了DetAny4D在保持SOTA级别3D检测精度的同时，显著降低了时序抖动，带来了前所未有的时间稳定性。

关键观点总结

关键观点1: 构建大规模4D检测数据集DA4D，解决数据驱动方法的有效训练问题。

DA4D数据集包含超过28万个序列，所有序列都拥有高质量的3D边界框标注。通过全局对象过滤、3D边界框与坐标系自适应等策略生成标注。

关键观点2: 提出端到端的4D检测模型DetAny4D，实现时序建模。

模型利用特征提取器提取视觉特征，通过时空解码器建立时序联系，设计多任务头进行端到端的训练。采用因果注意力机制实现时序建模，确保模型在处理当前帧时只能“看到”当前帧和过去帧的信息。

关键观点3: 训练策略和损失函数的设计。

训练策略包括从长视频中随机裁剪出固定长度的片段，并引入对象查询填充机制处理帧间新增或消失的物体。损失函数包括常规检测损失及时序一致性损失，确保模型的预测结果在时序上保持一致性。

关键观点4: 实验结果与分析。

DetAny4D在DA4D数据集上进行了广泛的实验，与多种主流的3D检测方法和视频4D检测方法进行了对比。实验结果表明，DetAny4D在保持SOTA级别3D检测精度的同时，显著降低了时序抖动。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博