专栏名称: AI新文

AI顶刊顶会新论文一号通，每天推送，助您时刻站在AI研究最前沿。包括：人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

小宇宙RSS订阅方法

X平台RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

CVPR 2025 | 人机交互-相关论文8篇

AI新文 · 公众号 · · 2025-06-27 07:00

主要观点总结

该文章主要介绍了关于人机交互检测的相关研究，包括位置感知的零炮人机交互检测、大规模数据集HOIGen-1M的介绍、用丰富的几何和关系指导人与物体的交互等等。这些研究通过不同的方法和框架，提高了人机交互检测的准确性和效率。

利用局部感知和交互感知技术，通过聚集相邻邻域斑块的信息和空间先验信息，实现局部感知，涉及捕获单个对象的细粒度细节和空间结构。交互感知涉及识别人类是否以及如何与对象交互，通过捕获人类和对象之间的交互模式来实现。LAIN捕获关于人类对象对的详细信息，优于以前的方法。

HOIGen-1M是第一个用于HOI Generation的大规模数据集，包含来自不同来源的100多万个高质量视频。设计了一种基于多模态专家混合（MoME）策略的视频描述方法，生成表达性字幕，消除单个MLLM的幻觉。提出两个新的度量评估生成视频的质量。

引入ROG框架，用丰富的几何细节建模HOI中的时空关系。从对象网格中选择边界聚焦和精细细节关键点，构建交互式距离场（IDF），捕获鲁棒HOI动力学。开发基于扩散的关系模型，整合空间和时间注意机制，更好地理解复杂的HOI关系。

从关键观察开始：每个人类对象对的HOI检测的输出可以被重铸为图像。使用类图像扩散过程生成HOI检测输出。定制HOI扩散过程和切片修补模型架构，增强框架生成重铸“HOI图像”。大量实验证明框架的有效性。

从单个图像中重建人机交互是计算机视觉的基础。由于3D数据的缺乏和对象多样性的限制，以前的方法主要在室内场景上训练和测试。最近从2D HOI图像重建各种物体成为可能。因此构建了一个管道用于从单个图像中注释细粒度3D人类、对象及其交互。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博