今天看啥  ›  专栏  ›  PaperEveryday

TPAMI 2025 | 基于语言引导意图转换的可迁移无意动作定位

PaperEveryday  · 公众号  · AI媒体 科技媒体  · 2025-07-12 19:00
    

主要观点总结

本文介绍了论文“基于语言引导意图转换的可迁移无意动作定位”的主要内容。该论文提出了一种新的框架TransferableUAL,通过引入语言引导意图转换来解决非故意动作定位问题。该框架能够利用预训练模型的视觉-语言知识,从观察到的故意部分构建一个可迁移推理模型到缺失的非故意部分。

关键观点总结

关键观点1: 论文创新点

提出全新框架:TransferableUAL框架,通过从观察到的有意部分构建到缺失的无意部分的可迁移推理模型,创新性地从输入的不完整视频中重构完整的动作意图线索,解决无意动作定位问题。

关键观点2: 引入语言引导意图转换

借助预训练模型的视觉-语言知识,通过引入语言引导意图转换,隐式地指导可迁移推理模型的学习,利用语言监督来帮助视觉模态学习,描绘诸如动作意图线索等抽象概念。

关键观点3: 设计投票定位模块

设计了基于投票的定位模块Dvote,该模块由D∆和Dp两个块组成,以带有隐式语言指导的全局特征为输入,分别输出时间戳偏移量和置信度分数,从而检测从有意到无意的动作转换。

关键观点4: 构建新数据集并验证泛化能力

构建了新的竞技体育视频数据集FS-Falls,将TransferableUAL从野外场景泛化到竞技体育场景,实验证明该框架在不同场景下均具有良好的泛化能力,能在复杂场景中检测动作转换。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照