代码数据在预训练时要训吗？训多少？退火时要放吗？

SparksofAGI · 公众号 · · 2024-09-01 16:53

主要观点总结

本文主要探讨了代码数据在预训练中的作用，分析了代码数据如何影响非代码任务的表现。通过多项实验，作者发现代码数据可以显著提升自然语言推理、世界知识类任务的表现以及代码性能。文章还介绍了预训练中的冷却阶段包含代码数据的影响，以及不同模型变体在各项任务中的表现。

实验表明，加入代码数据可以显著提升自然语言推理、世界知识类任务的表现，同时提高生成胜率。代码数据可以提供关键提升，相对文本预训练，自然语言推理能力提升了8.2%，世界知识提升了4.2%，生成胜率提升了6.6%，代码性能提升了12倍。

使用高质量合成代码数据集进行训练，可以提高预训练的性能。特别是，使用高质量的合成代码数据集进行训练，相对于基于网络的代码数据，自然语言推理能力提高了9%，代码性能提高了44%。

为了获得最佳的世界知识和自然语言推理基准测试性能，最优的代码数据比例为25%。过多的代码数据可能会导致性能下降，特别是当代码数据比例达到75%时，世界知识的性能可能下降高达86.1%。

在预训练的冷却阶段包含代码数据，并对高质量数据源进行加权处理，可以进一步提升模型在自然语言推理、世界知识和代码性能上的表现。相对于没有冷却的模型，自然语言推理提升了3.6%，世界知识提升了10.1%，代码性能提升了20%。

文章比较了不同模型变体在各项任务中的表现，并指出在某些情况下，包含代码数据的模型变体在自然语言任务上的表现优于仅使用文本数据的模型。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博