|
|
Transformer引入离散小波变换,分解嵌入的低频和高频成分 FightingCV · 公众号 · · 1 年前 · |
|
|
SigLIP 2:具有改进语义理解、定位和密集特征的多语言视觉语言编码器 FightingCV · 公众号 · · 1 年前 · |
|
|
Magic 1-For-1:一分钟内生成一分钟视频片段 FightingCV · 公众号 · · 1 年前 · |
|
|
SAM-MED2D FightingCV · 公众号 · · 1 年前 · |
|
|
用于统一目标定位和检测的开放且全面的管道 FightingCV · 公众号 · 科技媒体 · 1 年前 · |
|
|
Ref-NMS:打破两阶段指称表达定位中的提案瓶颈 FightingCV · 公众号 · · 1 年前 · |
|
|
ReferDINO:基于视觉基础模型的视频对象指称分割 FightingCV · 公众号 · · 1 年前 · |
|
|
DeepSeek-R1:基于强化学习激励大语言模型的推理能力 FightingCV · 公众号 · · 1 年前 · |
|
|
CLIP4STR:基于预训练视觉语言模型的场景文本识别简单基线 FightingCV · 公众号 · · 1 年前 · |