专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

TodayRss-海外稳定RSS

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

量子位 · 公众号 · AI · 2025-02-12 09:03

主要观点总结

UltraMem是一个全新的稀疏模型架构，由字节研发，旨在解决目前主流的MoE架构和PKM架构在推理成本和速度上存在的问题。相比MoE架构，UltraMem推理速度提升2-6倍，推理成本最高可降低83%。该研究已被ICLR 2025接收。

关键观点总结

关键观点1: UltraMem架构的亮点

UltraMem兼顾访存和模型效果，通过多项技术优化，实现了高效的推理性能和模型性能。

关键观点2: MoE和PKM的局限性

MoE在推理场景中访存需求急剧增加，导致推理延迟上升；而PKM虽然访存效率高，但模型效果较差且扩展能力有限。

关键观点3: UltraMem架构的优化措施

UltraMem通过优化模型结构、改进value检索方式以及隐式扩展稀疏参数等多项技术优化，实现了更高效访存和更优质的value检索，同时降低了显存和部署成本。

关键观点4: UltraMem的评估结果

在模型性能评估中，UltraMem在680M、1.6B尺寸上效果显著；在消融实验中，相比MoE实现了最高达6倍的速度提升，推理成本最高可降低83%，表现出强大的扩展能力。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · [CL]《Actions Speak Louder than P-20250925060701

5 小时前

黄建同学 · 香港大学的DeepCode，目标是提供一个“agentic co-20250923213913

昨天

量子位 · Qwen开源版Banana来了！原生支持ControlNet

昨天

黄建同学 · 又一个小红书运营工具↓xhs_ai_publisher 是一个针-20250923121626

昨天

宝玉xp · 🚀 DeepSeek V3.1 全新升级 → DeepSeek-20250922225055

2 天前

工业工程之家 · 【IE系统课程反馈节选】基于应用和需求-做有针对性的课程讲解

1 年前

大模型智能 · 现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？

1 年前

猎云精选 · 爱奇艺，压力又来了

10 月前

杭州生态环境 · 从“笔杆子”到短视频达人！杭州环保宣传队集体充电升级

5 月前

三峡小微 · 三峡升船机2025年计划性停航检修启动

4 周前