今天看啥  ›  专栏  ›  吴师兄学大模型

快手一面:Prefix LM 和 Causal LM 到底差在哪?

吴师兄学大模型  · 公众号  · 大模型  · 2025-07-11 00:31
    

主要观点总结

本文介绍了两种语言模型:Causal LM和Prefix LM。文章详细解释了它们之间的区别,包括定义、注意力Mask的设计、设计背后的差异以及应用场景。最后,作者通过比喻帮助读者更好地理解这两种模型的区别。同时,作者还提供了关于如何选择这两种模型的建议。

关键观点总结

关键观点1: Causal LM和Prefix LM的定义和核心思想。

Causal LM是一种自回归语言模型,只能看左边的词,右边一个也不能看。Prefix LM则把输入拆成前缀和要生成的部分,前缀这一段可以注意所有词,但后面的生成部分必须自回归。

关键观点2: 注意力Mask在Causal LM和Prefix LM中的设计。

Causal LM的注意力Mask是一个标准的左下三角矩阵,而Prefix LM的注意力Mask会被人为分成两个区域,一个是前缀内部完全可见,一个是生成部分严格自回归。

关键观点3: Causal LM和Prefix LM的设计背后的差异以及应用场景。

这两种设计代表了不同的思路。Causal LM适合预训练任务简单的超大规模模型,而Prefix LM更适合多任务学习和大模型指令微调场景。

关键观点4: 如何理解并选择Causal LM和Prefix LM。

作者通过比喻将两者比作写小说的高手和既能写文案又能做总结的全能型选手,以帮助读者理解两者之间的差异。在选择时,需要根据是训练大模型还是搞多任务微调来决定。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照