今天看啥  ›  专栏  ›  DASOU

Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

DASOU  · 公众号  ·  · 2025-06-02 14:09
    

主要观点总结

本文介绍了来自普林斯顿大学的研究团队提出的两种新的注意力机制:分组绑定注意力(Grouped-Tied Attention, GTA)和分组潜在注意力(Grouped Latent Attention, GLA)。这两种机制旨在优化大语言模型的推理效率和硬件资源利用率,同时保持模型生成质量。研究团队在四种不同规模的模型上进行了实验,验证了这两种新机制的有效性。其中,GTA适用于模型的进一步扩展,而GLA在并行计算和模型质量之间找到了较好的平衡点。这两种新注意力机制可以有效替代已有的GQA和MLA方案,提高模型的解码速度和吞吐量,减少内存访问量,尤其适用于长上下文场景。

关键观点总结

关键观点1: 研究背景及动机

随着人工智能的发展,大语言模型(LLM)的推理效率和硬件资源利用率成为关注的焦点。特别是在涉及长上下文推理时,当前的大语言模型面临内存访问瓶颈和并行性限制两大难题。为此,研究团队提出了两种新的注意力机制:GTA和GLA。

关键观点2: 新方法介绍

1. 分组绑定注意力(GTA):通过将不同查询头的键(Key)和值(Value)状态进行组合与重用,减少内存传输次数。2. 分组潜在注意力(GLA):采用双层结构,通过引入潜在Tokens作为全局上下文的压缩表示,并共享联合潜在表示,减少每个设备需要加载的KV缓存量。

关键观点3: 实验结果与分析

研究团队在四种不同规模的模型上进行了实验,验证了GTA和GLA的有效性。结果显示,GTA和GLA在保持模型性能不变的情况下,能显著提高模型的解码速度和吞吐量。其中,GTA相比GQA减少约50%的KV缓存,GLA在多数场景下与MLA相当,并且在某些情况下表现更优。

关键观点4: 论文作者及研究展望

论文作者均来自普林斯顿大学,其中Tri Dao是生成式AI初创公司的首席科学家。研究团队表示,这只是迈向test-time推理“理想”架构的第一步。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照