专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  我爱计算机视觉

复旦腾讯联手攻克4D检测难题,DetAny4D实现端到端时序一致性目标感知

我爱计算机视觉  · 公众号  · AI媒体 科技自媒体  · 2025-11-26 16:09
    

主要观点总结

本文介绍了论文DetAny4D: Detect Anything 4D Temporally in a Streaming RGB Video,该论文针对连续视频流中的3D目标检测问题提出了一个名为DetAny4D的新框架。论文首先构建了大规模4D检测数据集DA4D,并在此基础上提出了端到端的4D检测模型DetAny4D,旨在解决当前方法存在的时序信息缺失和流程复杂等问题。模型通过特征提取器提取每一帧的视觉特征,并利用时空解码器建立时序建模,同时设计了多任务头进行端到端的训练。通过一系列的训练策略和损失函数的设计,模型能够实现任意长度视频序列的输入,并有效学习时序一致性。实验结果证明了DetAny4D在保持SOTA级别3D检测精度的同时,显著降低了时序抖动,带来了前所未有的时间稳定性。

关键观点总结

关键观点1: 构建大规模4D检测数据集DA4D,解决数据驱动方法的有效训练问题。

DA4D数据集包含超过28万个序列,所有序列都拥有高质量的3D边界框标注。通过全局对象过滤、3D边界框与坐标系自适应等策略生成标注。

关键观点2: 提出端到端的4D检测模型DetAny4D,实现时序建模。

模型利用特征提取器提取视觉特征,通过时空解码器建立时序联系,设计多任务头进行端到端的训练。采用因果注意力机制实现时序建模,确保模型在处理当前帧时只能“看到”当前帧和过去帧的信息。

关键观点3: 训练策略和损失函数的设计。

训练策略包括从长视频中随机裁剪出固定长度的片段,并引入对象查询填充机制处理帧间新增或消失的物体。损失函数包括常规检测损失及时序一致性损失,确保模型的预测结果在时序上保持一致性。

关键观点4: 实验结果与分析。

DetAny4D在DA4D数据集上进行了广泛的实验,与多种主流的3D检测方法和视频4D检测方法进行了对比。实验结果表明,DetAny4D在保持SOTA级别3D检测精度的同时,显著降低了时序抖动。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照