梁文锋署名新论文，DeepSeek V4架构首曝？直击Transformer致命缺陷

36氪Pro · 公众号 · 科技自媒体 · 2026-01-13 16:05

主要观点总结

DeepSeek新论文提出Engram模块，解决了Transformer的记忆难题，让模型容量不再依赖参数堆叠。该模块通过条件记忆稀疏轴实现MoE的互补，提出全新的Engram模块去承担查找静态模式的任务，从而释放Transformer主干用于更需要的组合与推理。论文揭示了Engram架构的优势，在知识推理数学等方面全面提升性能，并展示了其系统优化的潜力。

关键观点总结

关键观点1: Engram模块解决Transformer记忆难题

Engram通过将静态模式的识别与存储交给可扩展的查表模块承担，从而解决了Transformer缺乏原生知识查找能力的问题。

关键观点2: Engram与MoE互补

Engram和MoE在条件计算和条件记忆上形成互补，通过U型scaling law揭示了最优的资源分配比例。

关键观点3: Engram提升模型性能

Engram架构在知识密集型任务、通用推理领域以及代码和数学推理上均表现出显著提升。

关键观点4: Engram解放注意力机制

通过卸载局部依赖建模的任务，Engram保留了宝贵的注意力容量来管理全局上下文，提升了长上下文处理能力。

关键观点5: Engram的系统优化潜力

确定性查表机制有助于系统优化，例如预取和卸载，为更大参数、同等吞吐提供了一种可行的工程路线。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博