专栏名称: AI生成未来

AIGC最新技术及资讯

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

ICCV 2025 | 清华&腾讯发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

AI生成未来 · 公众号 · 科技自媒体 AI媒体 · 2025-07-15 00:01

主要观点总结

本文介绍了一种基于视觉头识别的KV-Cache压缩策略（SparseMM），用于多模态大模型的推理加速。通过OCR任务定位视觉头，提出一种注意力头级别的缓存分配机制，根据视觉头的视觉得分分配缓存预算。在多个多模态数据集上的实验结果表明，SparseMM在性能、推理速度和显存占用方面取得了显著提升，尤其适用于文字密集、图文关联紧密的视觉任务。该方法为通用多模态模型的推理加速和缓存优化提供了高效、可靠且可推广的解决方案。

关键观点总结

关键观点1: 多模态大模型通过引入视觉编码器模块，使得原本不具备视觉能力的LLM能够在图文问答、文档理解等多种场景下表现出色，但模型内部如何实现跨模态迁移仍是一个‘黑箱’问题。

本文提出了一种基于OCR任务量化并识别视觉头（Visual Head）的方法，通过视觉得分定位模型内部对视觉内容高度敏感的注意力头。

关键观点2: SparseMM方法主要包括两部分：通过OCR任务定位视觉头和为不同的注意力头分配不同的缓存预算。

基于视觉得分，该方法能够量化每个注意力头对视觉内容的关注程度，并据此提出一种注意力头级别的缓存分配机制，对更关注视觉内容的注意力头分配更多的缓存预算，以最大程度地保留视觉信息。

关键观点3: SparseMM在多个多模态数据集上进行了实验验证，结果表明该方法在性能、推理速度和显存占用方面取得了显著提升。

尤其是在处理高分辨率图像和长上下文输入场景时，SparseMM的优势更加显著，为通用多模态模型的推理加速与实际部署提供了新的解决思路。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

sven_shi · 分手案件中的经济控制这些年争议极大，并且涉及的很多都是名人。出-20260516150736

13 小时前

小马宋 · AI什么都知道，那知识服务和咨询还有啥价值

12 小时前

华尔街见闻-资讯-硬AI · 阿克曼建仓微软，称其护城河“无法复制”，减持谷歌

21 小时前

笔记侠 · 华为的钱是怎么管的？

昨天

酷玩实验室 · 横店短剧大撤退：停工、降薪，与被挤掉的饭碗

2 天前

北航就业 · 招聘 | 通用技术机床研究院 | 2025年校园招聘正式启动

1 年前

副业搞钱有术 · 腾讯旗下益智类小游戏《无限烧脑》，结合深度思考与逻辑性，锻炼思维能力

1 年前

蒲公英制药论坛 · 药典委：感冒解毒颗粒、四季三黄片标准公示！

11 月前

新浪科技 · #非银存款大幅多增# 【#居民存款入市信号增强#】7月金融数据中-20250815102052

9 月前

宝玉xp · 如果你在台上演示搞砸了，想想小札，演示智能眼镜现场翻车 ----20250918131759

8 月前