专栏名称: 瓦力算法学研所

我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势，以及如何应用这些技术来解决实际问题，探索每一项技术落地的可行性方案。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

Self-Attention 的时间复杂度/空间复杂度是怎么计算的

瓦力算法学研所 · 公众号 · 科技自媒体 · 2024-08-29 17:03

主要观点总结

本文介绍了Self-Attention和Multi-Head Attention的时间复杂度分析。文章详细解释了Self-Attention的三个步骤：相似度计算、softmax和加权平均，并指出其时间复杂度为O(n^2·d)。对于Multi-Head Attention，文章解释了其类似于CNN中的多核作用，并分析了其时间复杂度也是O(n^2·d)。此外，文章还涉及了空间复杂度的分析，并提供了相关参考文献。

关键观点总结

关键观点1: Self-Attention的时间复杂度分析

Self-Attention包括三个步骤：相似度计算、softmax和加权平均。其中，相似度计算的时间复杂度为O(n^2·d)，softmax的时间复杂度为O(n^2)，加权平均的时间复杂度也为O(n^2·d)。因此，Self-Attention的总时间复杂度为O(n^2·d)。

关键观点2: Multi-Head Attention的时间复杂度分析

Multi-Head Attention的作用类似于CNN中的多核。其时间复杂度分析与Self-Attention类似，也是O(n^2·d)。

关键观点3: 空间复杂度的分析

存储QK T的空间复杂度为O(N^2)，存储Softmax(QK T/d^0.5)V的空间复杂度为O(N^2 + Nd)，如果把向量维度d看作常数，则可以说Self-Attention的空间复杂度是序列长度的平方。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

sven_shi · 这种新闻也是难写。对于孩子最好其实就是确定一个人养，而不是维持已-20260504121754

10 小时前

王建硕 · 人将会离开代码层

昨天

李楠或kkk · 问 5 个简单问题，理解今天所有 AI 项目的能力，对，所有。x-20260502125029

2 天前

李楠或kkk · 其实用 AI 写软件项目，对于普通人最大的障碍是两个：1 在需求-20260502182856

2 天前

金错刀 · 狠人张雪，拒绝华为合作！

2 天前

中汇信达深圳税务师事务所 · 国家税务总局公告2017年第49号

1 年前

六安市市场监督管理局发布 · 事关“老年痴呆”用药，这一指导原则发布→

11 月前

浔阳市监 · 【优化提升营商环境进行时】浔阳区市场监管局：构建三维支撑新体系激活市场发展新动能

9 月前

室内设计联盟网 · Private Home | 纯粹之境

8 月前

腾讯汽车 · 利润跌九成之后，百万豪车保时捷要过“苦日子”了

1 月前