专栏名称: AI新文
AI顶刊顶会新论文一号通,每天推送,助您时刻站在AI研究最前沿。包括:人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  AI新文

NeurIPS 2025 | 大语言模型的安全与对齐-相关论文12篇

AI新文  · 公众号  · 科技媒体  · 2025-12-10 07:00
    

主要观点总结

本文综述了大语言模型对齐相关的研究,介绍了多个研究团队的最新工作。这些研究包括基于拒绝采样的分段级令牌对齐、模型消融的安全预训练颗粒化研究、对齐偏好数据清理的基准测试、概率令牌对齐用于大语言模型融合、通过战斗集体对齐多种语言模型、双重稳健对齐、利用重要性采样使对齐模块从大语言模型中分离、受限学习的大语言模型对齐、通过比较判据实现偏好对齐、利用鲁棒优化进行分布变化下的大语言模型对齐、通过分布鲁棒直接偏好优化实现稳健的LLM对齐以及大语言模型安全对齐是伪装的分歧估计等。

关键观点总结

关键观点1: 拒绝采样的分段级令牌对齐

提出一种解码时间算法,通过迭代地采样、评分和拒绝/接受短的固定大小的令牌片段来引导模型生成,可以尽早纠正生成路径,提高计算效率并提升对齐质量。

关键观点2: 模型消融的安全预训练颗粒化研究

研究模型删除术,这是一种轻量级投影技术,旨在移除拒绝敏感方向,并在大语言模型的精细安全预训练检查点序列上进行评估。

关键观点3: 对齐偏好数据清理的基准测试

提出了第一个用于评估LLM对齐上下文中偏好数据清洗方法的有效性和通用性的基准测试,强调了数据预处理在负责任的AI开发中的关键作用。

关键观点4: 其他相关研究

包括概率令牌对齐用于大语言模型融合、通过战斗集体对齐多种语言模型等。这些研究旨在提高大语言模型的性能,通过不同的方法和技术来优化和改进模型的对齐质量。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照