“坏数据” 造好模型：有毒数据如何重塑 LLM 的可控性？

数据派THU · 公众号 · 大数据 · 2025-12-06 17:00

主要观点总结

本文介绍了在预训练中适度加入有毒数据，通过结合后训练干预更有效地降低模型毒性并保持模型能力的方法。文章探讨了传统过滤毒性数据的做法所带来问题，通过一系列实验验证了增加预训练中的毒性数据比例可以提高模型的“对齐能力”，并引入特征纠缠的概念来解释这一现象背后的原理。文章还介绍了玩具实验和真实模型实验的设计和实施结果，以及如何通过推理时干预（ITI）技术降低模型输出的毒性。最后，文章呼吁以更系统、更实证的视角看待数据筛选，将预训练与后训练视为一个整体。

关键观点总结

关键观点1: 文章的主要观点是预训练中适度加入有毒数据能提高模型的‘对齐能力’，结合后训练干预能更有效地降低模型毒性并保持模型能力。

作者通过一系列实验验证了这一观点，并介绍了相关理论框架和实验结果。

关键观点2: 文章介绍了特征纠缠的概念，并设计了玩具实验来验证数据组成如何影响特征表示的纠缠程度。

作者使用一个4层Transformer进行了实验，观察不同数据比例下特征的纠缠度变化，并发现随着 underrepresented 特征的数据比例增加，其纠缠度显著下降。

关键观点3: 文章通过真实模型实验验证了假设，在模型中适度加入毒性数据可以改善概念表示，提升模型对毒性概念的理解。

作者在模型中各层的注意力头上训练线性分类器，判断输入是否具有毒性，结果显示加入毒性数据的模型在探测准确率上显著更高。

关键观点4: 文章介绍了后训练对齐的方法和效果，使用推理时干预（ITI）技术降低模型输出的毒性。

作者通过设置不同的干预强度，验证了坏数据（毒性内容）在预训练中帮助模型建立了更清晰的毒性表示，使得后训练干预更有效。

关键观点5: 文章呼吁社区以更系统、更实证的视角看待数据筛选，将预训练与后训练视为一个整体追求最优解。

作者认为适度增加毒性数据并非只是为了降低毒性，而是为了提高模型的‘对齐能力’，从而在后训练中更容易被引导至无害方向。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博