专栏名称: 吴师兄学大模型

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

快手一面：Prefix LM 和 Causal LM 到底差在哪？

吴师兄学大模型 · 公众号 · 大模型 · 2025-07-11 00:31

主要观点总结

本文介绍了两种语言模型：Causal LM和Prefix LM。文章详细解释了它们之间的区别，包括定义、注意力Mask的设计、设计背后的差异以及应用场景。最后，作者通过比喻帮助读者更好地理解这两种模型的区别。同时，作者还提供了关于如何选择这两种模型的建议。

关键观点总结

关键观点1: Causal LM和Prefix LM的定义和核心思想。

Causal LM是一种自回归语言模型，只能看左边的词，右边一个也不能看。Prefix LM则把输入拆成前缀和要生成的部分，前缀这一段可以注意所有词，但后面的生成部分必须自回归。

关键观点2: 注意力Mask在Causal LM和Prefix LM中的设计。

Causal LM的注意力Mask是一个标准的左下三角矩阵，而Prefix LM的注意力Mask会被人为分成两个区域，一个是前缀内部完全可见，一个是生成部分严格自回归。

关键观点3: Causal LM和Prefix LM的设计背后的差异以及应用场景。

这两种设计代表了不同的思路。Causal LM适合预训练任务简单的超大规模模型，而Prefix LM更适合多任务学习和大模型指令微调场景。

关键观点4: 如何理解并选择Causal LM和Prefix LM。

作者通过比喻将两者比作写小说的高手和既能写文案又能做总结的全能型选手，以帮助读者理解两者之间的差异。在选择时，需要根据是训练大模型还是搞多任务微调来决定。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

AIGC开放社区 · 哈佛《Science》研究：大模型已碾压人类医生！

13 小时前

人机与认知实验室 · 硅谷下场办大学，学费低包就业，公开叫板哈佛斯坦福

16 小时前

智能体AI · 基于 AI 智能体（Claude Code）的自动化科研工作流构建与应用实战

昨天

AIGC开放社区 · 让Agent真正“行动”起来，Agent Skill开发者大赛火热报名中！

昨天

人机与认知实验室 · [推荐阅读]有人/无人协同系统关键技术与发展趋势研究

昨天

北京吃货小分队 · 人均32的炸鸡自助，只有1个缺点

1 年前

普象工业设计小站 · 轻松应对夏日烦恼？你可能还缺这些黑科技产品~

10 月前

知食观 · 《知食观·食安资料库》专业交流群，等你加入！

7 月前

一小时爸爸 · 双11活动推荐，西屋按摩专场 | 把普通椅子改造成专业按摩专座 & 专业的气垫按摩毯...

6 月前

甘肃发布 · 增值税起征点再次提高！个人每次挣钱低于1000元，免交！

3 月前