|
|
用于密集物体检测的Focal损失 FightingCV · 公众号 · · 1 年前 · |
|
|
最近注意力机制疯狂涨点,即插即用 FightingCV · 公众号 · · 1 年前 · |
|
|
EventCLIP:面向事件的物体识别的CLIP适配方法 FightingCV · 公众号 · · 1 年前 · |
|
|
ProtoCLIP:原型对比语言图像预训练 FightingCV · 公众号 · · 1 年前 · |
|
|
统一的文本到图像的生成和检索 FightingCV · 公众号 · · 1 年前 · |
|
|
Inf-MLLM:单 GPU 上多模态大型语言模型的高效流式推理 FightingCV · 公众号 · · 1 年前 · |
|
|
Marco-o1:面向开放式解决方案的开放式推理模型 FightingCV · 公众号 · · 1 年前 · |
|
|
具有条件匹配的开放词汇 DETR FightingCV · 公众号 · · 1 年前 · |
|
|
LLaVA-o1: 视觉语言模型逐步推理 FightingCV · 公众号 · · 1 年前 · |
|
|
重新思考AI核心架构Transformer的应用 FightingCV · 公众号 · · 1 年前 · |
|
|
大型多模态模型中新出现的像素级语义理解,没有语义理解监督 FightingCV · 公众号 · 设计 AI媒体 · 1 年前 · |
|
|
LLM2CLIP:强大的语言模型解锁更丰富的视觉表示 FightingCV · 公众号 · · 1 年前 · |
|
|
F-LMM:基于冻结的大型多模态模型的Visual Grounding FightingCV · 公众号 · · 1 年前 · |
|
|
TNNLS24|动态网络!同一个模型走不同路径,就能生成不同的图像描述结果! FightingCV · 公众号 · · 1 年前 · |
|
|
大模型经典著作《大语言模型基础与前沿》 FightingCV · 公众号 · · 1 年前 · |
|
|
被导师放养,后果可能很严重。。。 FightingCV · 公众号 · · 1 年前 · |
|
|
用于视觉任务的视觉语言模型:综述 FightingCV · 公众号 · · 1 年前 · |
|
|
Prometheus-Vision: 视觉语言模型作为细粒度评估的评判者 FightingCV · 公众号 · · 1 年前 · |
|
|
CLIP 能理解深度 FightingCV · 公众号 · · 1 年前 · |
|
|
ConaCLIP:探索用于轻量级文本-图像检索的全连接知识交互图的蒸馏 FightingCV · 公众号 · · 1 年前 · |