|
|
Pattern Recognition | 同时关注局部和全局信息,利用注意力抓取不同粒度的视觉信... FightingCV · 公众号 · · 1 年前 · |
|
|
目标检测开源项目合集,建议收藏! FightingCV · 公众号 · · 1 年前 · |
|
|
CLIP-DFGS:一种用于可泛化行人重识别中的CLIP的难样本挖掘方法 FightingCV · 公众号 · · 1 年前 · |
|
|
211本二战字节视觉算法岗,拿下70k offer!!! FightingCV · 公众号 · · 1 年前 · |
|
|
字节Chunyuan Li团队提出LLaVA-Critic:学习评估多模态模型 FightingCV · 公众号 · · 1 年前 · |
|
|
Video-ChatGPT:通过大型视觉语言模型实现详细的视频理解 FightingCV · 公众号 · · 1 年前 · |
|
|
多注意力深度伪造检测 FightingCV · 公众号 · · 1 年前 · |
|
|
Infinity-MM:利用大规模高质量指令数据扩展多模态性能 FightingCV · 公众号 · · 1 年前 · |
|
|
跨模态3D目标检测SOTA!易复现! FightingCV · 公众号 · · 1 年前 · |
|
|
Apple提出《对比局部化语言-图像预训练》 FightingCV · 公众号 · · 1 年前 · |
|
|
TaskCLIP:扩展大型视觉-语言模型以用于面向任务的目标检测 FightingCV · 公众号 · · 1 年前 · |
|
|
Janus: 解耦视觉编码以实现统一的多模态理解与生成 FightingCV · 公众号 · · 1 年前 · |
|
|
开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品 FightingCV · 公众号 · · 1 年前 · |
|
|
ECCV24 | ControlNet++: 通过高效一致性反馈改进条件控制 FightingCV · 公众号 · · 1 年前 · |
|
|
YOLO核心架构的演变路线 FightingCV · 公众号 · · 1 年前 · |
|
|
BLIP:用于统一视觉语言理解和生成的引导语言图像预训练 FightingCV · 公众号 · · 1 年前 · |
|
|
MMIU: 用于评估大型视觉语言模型的多模态多图像理解 FightingCV · 公众号 · · 1 年前 · |
|
|
Arena Learning : 通过模拟聊天机器人竞技场为 LLM 后训练构建数据飞轮 FightingCV · 公众号 · · 1 年前 · |
|
|
MMEvol:赋能多模态大型语言模型的 Evol-Instruct FightingCV · 公众号 · · 1 年前 · |
|
|
NTU提出Text4Seg: 重塑图像分割为文本生成 FightingCV · 公众号 · · 1 年前 · |