自动驾驶感知算法工程师,专注计算机视觉|自动驾驶感知|深度学习|机器学习|AI前沿动态|编程技术|SLAM|资源分享
目录
今天看啥  ›  专栏  ›  啥都会一点的研究生

盛名一时的BERT哪去了?

啥都会一点的研究生  · 公众号  ·  · 2024-08-03 11:25
    

主要观点总结

文章主要讨论了大型语言模型(LLM)的三种主要架构:仅编码器模型、编码器-解码器模型和仅解码器模型。文章还探讨了去噪目标在LLM预训练中的作用,以及编码器-解码器架构的优缺点。最后,文章指出,当前的趋势是向通用模型发展,使用去噪目标作为辅助,而不再使用特定任务的模型。

关键观点总结

关键观点1: LLM的三种主要架构

文章介绍了大型语言模型的三大架构:仅编码器模型(如BERT)、编码器-解码器模型(如T5)和仅解码器模型(如GPT系列模型)。这些架构各有优缺点,选择哪种架构取决于下游用例和应用限制。

关键观点2: 去噪目标在LLM预训练中的作用

去噪目标在LLM预训练中扮演了重要角色,可以作为因果语言模型的补充目标。这种目标可以帮助模型学习预测下一个词,但相对于常规因果语言建模,其样本效率较低。

关键观点3: 编码器-解码器架构的优缺点

相比于仅解码器模型,编码器-解码器架构有优点也有缺点。优点包括可以在编码器端执行不受因果掩码限制的操作,以及能更好地利用双向注意力。缺点包括输入和目标必须分配固定的预算,可能会浪费大量计算。

关键观点4: 当前的趋势是向通用模型发展

目前,人们更倾向于使用一个通用模型去执行各种任务,而不是使用特定于某任务的模型。这种趋势导致了BERT等仅编码器模型的逐渐淘汰,以及更灵活的去噪(自回归)T5模型的兴起。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照
推荐文章