专栏名称: AI新文

AI顶刊顶会新论文一号通，每天推送，助您时刻站在AI研究最前沿。包括：人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

NeurIPS 2025 | 大语言模型的安全与对齐-相关论文12篇

AI新文 · 公众号 · 科技媒体 · 2025-12-10 07:00

主要观点总结

本文综述了大语言模型对齐相关的研究，介绍了多个研究团队的最新工作。这些研究包括基于拒绝采样的分段级令牌对齐、模型消融的安全预训练颗粒化研究、对齐偏好数据清理的基准测试、概率令牌对齐用于大语言模型融合、通过战斗集体对齐多种语言模型、双重稳健对齐、利用重要性采样使对齐模块从大语言模型中分离、受限学习的大语言模型对齐、通过比较判据实现偏好对齐、利用鲁棒优化进行分布变化下的大语言模型对齐、通过分布鲁棒直接偏好优化实现稳健的LLM对齐以及大语言模型安全对齐是伪装的分歧估计等。

关键观点总结

关键观点1: 拒绝采样的分段级令牌对齐

提出一种解码时间算法，通过迭代地采样、评分和拒绝/接受短的固定大小的令牌片段来引导模型生成，可以尽早纠正生成路径，提高计算效率并提升对齐质量。

关键观点2: 模型消融的安全预训练颗粒化研究

研究模型删除术，这是一种轻量级投影技术，旨在移除拒绝敏感方向，并在大语言模型的精细安全预训练检查点序列上进行评估。

关键观点3: 对齐偏好数据清理的基准测试

提出了第一个用于评估LLM对齐上下文中偏好数据清洗方法的有效性和通用性的基准测试，强调了数据预处理在负责任的AI开发中的关键作用。

关键观点4: 其他相关研究

包括概率令牌对齐用于大语言模型融合、通过战斗集体对齐多种语言模型等。这些研究旨在提高大语言模型的性能，通过不同的方法和技术来优化和改进模型的对齐质量。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

新浪科技 · #Labubu冰箱二手价腰斩#【一夜腰斩？ 20999元抢的La-20260501175745

18 小时前

艾瑞咨询 · 2026年中国手游行业热点研究白皮书

昨天

IT之家 · 微信iOS版8.0.72正式更新：朋友圈改版、作品标变样、多消息复制...

昨天

TechWeb · 大主播出走、百万悬赏“抓人”：直播电商迎“去头部化”阵痛

昨天

腾讯研究院 · 让AI成为真正的社会生产力——跨越Token效率门槛走向AI普惠

昨天

迈点 · “卷”死同行，这家酒店携程4.9、美团5.0且常年满房

1 年前

新闻晨报 · 今日晨报丨“魔法”来袭

1 年前

每日商报 · 官宣：明天正式进入！杭州人准备好，连续3天，上涨！

1 年前

FM1036福建新闻广播 · 我国外销型战机歼-10CE首次取得实战战果，一举击落多架战机，自己无一损失

11 月前

东华就业 · 【上周回看】重点单位招聘、暑期实习、挂职锻炼、就业之星等

10 月前