专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

Self-Attention & Transformer完全指南：像Transformer的创作...

极市平台 · 公众号 · 设计科技媒体 · 2024-11-12 22:00

主要观点总结

文章详细介绍了从RNN到self-attention，再到Transformer的算法演变过程，解释了RNN的长距离依赖问题，LSTM的时序依赖问题，self-attention的矩阵化、本质、QKV思想，Positional Encoding的位置信息整合，Transformers的encoder-decoder架构，Cross-Attention和Multi-head Attention，Feed Forward Layer，Residual Network与Layer Norm。文章不仅解释了这些概念，还鼓励读者思考如何一步步做出Transformer的整个结构，并理解其细节。

关键观点总结

关键观点1: RNN的长距离依赖问题

RNN由于其隐藏状态更新方式，在长距离依赖上存在问题，导致信息不平等，需要改进模型结构。

关键观点2: LSTM的时序依赖问题

LSTM使用记忆单元存储先前信息，有效减轻了长距离依赖问题，但依然存在信息不对等和扩展性差的问题。

关键观点3: self-attention的矩阵化

self-attention使用矩阵运算代替时序依赖，实现并行化，提高计算效率。

关键观点4: Positional Encoding的位置信息整合

Positional Encoding通过修改token的embedding，使模型感知token在序列中的位置信息。

关键观点5: Transformers的encoder-decoder架构

Transformer使用encoder-decoder架构，通过self-attention和cross-attention实现seq2seq任务。

关键观点6: Multi-head Attention

Multi-head Attention通过增加注意力头的数量，增大参数量，增加特征提取器的分化程度，提高性能。

关键观点7: Feed Forward Layer

Feed Forward Layer作为非线性层，增加模型的非线性能力，并增加模型的容量。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

支付宝 · “碰一下”支付，解锁反诈提醒！

17 小时前

智东西 · 4500亿，今年最大IPO诞生，台积电和特朗普长子投了

23 小时前

雷科技 · 谁把AI训成了舔狗？

昨天

创业邦 · 飞往北京的“空军一号”，CEO们“身家”超20万亿美元？马斯克发帖：只有我和黄仁勋坐上了；林俊旸创办AI实验室目标估值20亿美元丨邦早报

昨天

36氪 · 8点1氪：林俊旸新公司估值20亿美金；贾跃亭宣布转战机器人业务；网红糖果被发现掺超高剂量伟哥

昨天

智能车参考 · 小米汽车越火爆，极越越怀才不遇

1 年前

海关发布 · 你真是一下子就瘦了

1 年前

长江日报 · 武汉的大树穿毛衣了，我们织的

1 年前

FM1031济南交通广播 · 喜报！神二十发射圆满成功

1 年前

雅迪电动车价格 · “男孩高考估分710，爸爸喊话9月清华见”被群嘲，真实成绩出来后，网友沉默了…

10 月前