|
TagCLIP:一种局部到全局的框架,用于增强CLIP的开放词汇多标签分类,无需训练 FightingCV · 公众号 · · 2 周前 · |
|
Dino-X:开放世界对象检测和理解的统一视觉模型 FightingCV · 公众号 · · 3 周前 · |
|
并非所有注意力头都是你需要的: 通过注意力消融提炼CLIP的图像表征 FightingCV · 公众号 · · 3 周前 · |
|
StackCLIP: 聚类驱动的堆叠提示在零样本工业异常检测中的应用 FightingCV · 公众号 · · 4 周前 · |
|
LLMI3D: 基于 MLLM 的单张 2D 图像 3D 感知 FightingCV · 公众号 · · 1 月前 · |