|
|
BLIP-2作者新作Aria : 一个开放的多模态原生专家混合模型 FightingCV · 公众号 · · 1 年前 · |
|
|
华为天才少年面试大厂被怼:怎么连Attention都不会? FightingCV · 公众号 · · 1 年前 · |
|
|
Mistral发布了其首款多模态模型Pixtral 12B FightingCV · 公众号 · · 1 年前 · |
|
|
EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench FightingCV · 公众号 · 科技自媒体 · 1 年前 · |
|
|
堪比理科博士生的最强AI大模型:GPT-o1技术解析 FightingCV · 公众号 · 科技自媒体 AI · 1 年前 · |
|
|
Google Deepmind提出SigLIP,用于语言图像预训练的 Sigmoid 损失 FightingCV · 公众号 · · 1 年前 · |
|
|
Apple提出MM1.5:多模态大型语言模型微调的方法、分析和见解 FightingCV · 公众号 · · 1 年前 · |
|
|
最优大语言模型模型架构深度解析 FightingCV · 公众号 · · 1 年前 · |
|
|
NeurIPS2024即插即用模块论文合集! FightingCV · 公众号 · · 1 年前 · |
|
|
Qwen2-VL:增强视觉语言模型在任何分辨率下的世界感知能力 FightingCV · 公众号 · · 1 年前 · |
|
|
Kaiming He团队提出通过异构预训练Transformer 大规模扩展本体感知-视觉学习 FightingCV · 公众号 · · 1 年前 · |
|
|
LLaVA-OneVision|更加高级的LLaVA,轻松的视觉任务转移 FightingCV · 公众号 · · 1 年前 · |
|
|
对齐器: 通过学习校正实现高效对齐 FightingCV · 公众号 · · 1 年前 · |
|
|
Emo-DPO:通过直接偏好优化实现可控的情绪语音合成 FightingCV · 公众号 · · 1 年前 · |
|
|
Jiaya Jia团队提出LLaMA-VID :一张图片在大型语言模型中值两个token FightingCV · 公众号 · · 1 年前 · |
|
|
mamba和Tranformer融合:通过混合架构高效扩展多模态大语言模型到 1000 张图像 FightingCV · 公众号 · · 1 年前 · |
|
|
小米提出MobileVLM:一种用于增强UI内部和跨UI理解的视觉语言模型 FightingCV · 公众号 · · 1 年前 · |
|
|
T2I-CompBench:一个用于开放式世界组合式文本到图像生成的综合基准 FightingCV · 公众号 · · 1 年前 · |
|
|
Molmo 和 PixMo: 开放权重和开放数据的最先进的多模态大模型 FightingCV · 公众号 · · 1 年前 · |
|
|
MG-LMM | 指令引导的多粒度分割和字幕与大型多模态模型 FightingCV · 公众号 · · 1 年前 · |