专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

领英公司动态RSS订阅方法

RSS代理RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

【LLM基础知识】LLMs-Norm&激活&FNN层知识总结笔记v5.0

AINLP · 公众号 · 科技媒体 · 2024-07-29 10:10

主要观点总结

本文介绍了LLM（大型语言模型）中采用的Norm方法、激活函数和FFN前馈网络层。文中详细描述了LayerNorm、RMSNorm、DeepNorm等Normalization方法的作用和优缺点，并介绍了ReLU、GeLU、Swish等激活函数，以及GLU及其变体激活函数如SwiGLU。同时，还讨论了FFN层在Transformer模型中的作用和计算方法。最后，文中提到了为什么模型需要Normalization、Normalization的不同位置（Pre-Norm和Post-Norm）以及它们对模型训练的影响。

关键观点总结

关键观点1: Normalization在模型训练中的作用

Normalization可以调整输入数据特征的分布，有助于缓解梯度消失或梯度爆炸问题，有助于加速模型的收敛过程，提高模型的泛化能力。

关键观点2: Pre-Norm和Post-Norm的区别

Post-Norm在残差之后进行归一化，对参数正则化的效果更强，但可能导致梯度消失或梯度爆炸。Pre-Norm将部分参数进行归一化，有助于防止模型发生梯度消失或者梯度爆炸，但可能降低模型等效“深度”。

关键观点3: 各种Normalization方法简介

LayerNorm、RMSNorm、DeepNorm等不同的Normalization方法有其特点和适用场景，如LayerNorm减少每层输入分布的变化，RMSNorm利用均方根进行归一化，DeepNorm兼具Pre-LN的训练稳定和Post-LN的效果性能。

关键观点4: 激活函数的作用和选择

激活函数如ReLU、GeLU、Swish等在神经网络中起到非线性变换的作用，有助于模型学习到更复杂的特征表示。不同的激活函数具有不同的特点和适用场景，如ReLU计算简单但可能导致“死亡ReLU”问题，Swish和GLU变体激活函数则提供平滑非线性。

关键观点5: FFN前馈网络层的作用和计算

FFN层在Transformer模型中通过两个线性变换W1和W2，中间插入一个非线性激活函数f( )，对输入进行非线性变换。不同的激活函数和参数选择会影响FFN层的性能，如SwiGLU结合了Swish和GLU的优点，提供自适应门控机制和稳定的梯度特性。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址 (快捷配置)
总结与预览地址：访问文章预览/总结
文章地址：访问文章快照

分享到微博

推荐文章

新浪科技 · 【#GPT5.6发布了##OpenAI拟推迟上市原因#】央视财经-20260627195803

昨天

新浪科技 · 【追觅空调事业部负责人：#追觅空调目标全球高端市场第一#】追觅空-20260627151713

2 天前

IT之家 · 曝美光CEO吐槽：我芯片涨45元，苹果加价250

2 天前

新浪科技 · 【#苹果首款2nm芯片爆料#：更强散热和NPU，支持96-bit-20260627115000

2 天前

极客公园 · GPT-5.6 来了，超越 Mythos，成本比 5.5 降一半

2 天前

上辈子是hr · 社招 | 复旦大学高等学术研究院招聘图书资料人员（上海）

2 年前

扬子江船业 · 【生产速递】为NAVIBULGAR建造的45000DWT散货船“TRAPEZITZA”轮交付离厂

2 年前

法国文学bot · 当他不忍再看到人类生存的两极互相靠近得瞬间可及的程度，当他发现崇-20241107091102

1 年前

小十点 · 一个孩子最大的幸福，是父母在童年时给足他这4种心理营养

1 年前

深响 · 转运+招财+疗愈：水晶生意引爆蛇年

1 年前