主要观点总结
本文揭示了针对微调大模型的成员推理攻击的新方法,通过自校正机制来检测给定文本是否属于大模型的微调数据集。针对现实场景中的挑战,提出了基于自校正概率波动的成员推理攻击(SPV-MIA),该方法利用大模型自身的强大拟合和泛化能力,通过自提示方法生成校正数据集,并引入概率波动指标来刻画大模型的记忆现象特征。实验结果表明,该方法在多种大模型和微调数据集上取得了显著的性能提升。
关键观点总结
关键观点1: 现有的成员推理攻击在现实场景中无法对微调大模型造成有效的隐私泄露风险。
现有的两种成员推理攻击范式依赖于两个在现实场景中无法成立的假设。因此,在现实场景中只能取得接近于随机猜测的鉴别性能。
关键观点2: 提出基于自校正概率波动的成员推理攻击(SPV-MIA)
为了解决现有挑战,提出了一种自提示方法,从大型语言模型中提取校正数据集。引入了一种基于记忆而非过拟合的更可靠的成员推理分数。
关键观点3: SPV-MIA的实验结果
大量实验证明了SPV-MIA相对于所有基线的优越性,在四个开源的大模型和三个不同领域的微调数据集上,仅需1,000次查询就能达到超过90%的准确度。此外,探究了基于校正的成员推理攻击方法如何依赖于校正数据集的质量,并评估了自提示机制构建的高质量校正数据集。
免责声明
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。