专栏名称: DASOU

一名算法工程师，分享工作日常和AI干货，专注深度学习。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

下一代Transformer到底长啥样?

DASOU · 公众号 · 科技自媒体 · 2025-05-24 14:39

主要观点总结

本文是对Transformer架构未来发展的猜想和讨论，文章聚焦于Transformer架构的演进以及面临的挑战，特别是在数据复用和算力方面的问题。作者THU Markov在知乎上的回答被分享出来，给大家启发。

关键观点总结

关键观点1: Transformer架构的持续演进

文章讨论了Transformer架构的持续发展，从absolute embedding到RoPE，从dense到MoE，从CoT到think模型的不断进步。

关键观点2: 算力的重要性

作者强调数据、算法和算力是发展的关键，并特别指出算力的重要性。并行序列解码是必经之路，而全序列并行可能彻底绕过decoding阶段的存储墙。

关键观点3: 数据复用的挑战

文章深入讨论了Transformer架构在算力方面面临的最大挑战——自回归解码缺乏数据复用。作者解释了数据复用的重要性，以及当前Transformer架构在数据复用方面存在的问题。

关键观点4: 未来发展方向的猜想

文章提到Diffusion LLM是一个值得关注的方向，并定义了作者心中的transformer是基于attention机制的自回归编解码器架构。作者还讨论了带宽扩展的成本问题，以及当前挑战的解决方案。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

sven_shi · 这案子确实很经典。强奸案警察不能私下调解，但是记者偏偏公布了警方-20260504121355

15 小时前

李楠或kkk · 你有囤积和整理自己私有数据的功夫，claude 员工承认他们全球-20260503212104

昨天

sven_shi · #各地餐厅电话被一个陌生女子打爆# 实测了千问AI，用来搞定餐厅-20260502131802

2 天前

李楠或kkk · 给大家汇报一下这两周都干了啥，大家都还在的话转发互动一下吧。这样-20260502114129

2 天前

笔记侠 · 1.7亿人已读神作：如何用一天时间，彻底重塑你的一生？

3 天前

钱江晚报 · “撑不住了”！杭州一小区内惊险一幕，关键时刻他出手了

1 年前

民声民生 · 紧急提醒！不要发！不要发！不要发！

1 年前

罾事物语 · 西医博士的自我拯救之路（十一）——身体一定有一些“微妙的直接、或者间接连接的通道”，到底是什么？

1 年前

小韭菜的成长记录 · 阿里电话会十个要点：在经历了多年的战略摇摆和组织调整后，BABA终于确定了清晰、聚焦且极具进攻性的新方向。

8 月前

成都本地宝 · 美食街区+4000㎡超市！好吃嘴快集合！成都城西优品道广场逛吃指南→

5 月前