LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

机器之心 · 公众号 · AI · 2025-10-12 12:00

主要观点总结

本文介绍了一个由德国亥姆霍兹信息安全中心、富莱睿和西安交通大学的研究团队合作提出的新框架JADES，用于更准确地评估越狱攻击。该框架借鉴教育评估领域的分析式评分思想，采用分解式评分机制，将一个复杂的有害问题自动分解为一系列带权重的子问题，对模型针对每个子问题的回答进行独立评分，最终加权汇总。这项工作不仅提供了一个更可靠的评估工具，还通过对现有攻击的重新评估，揭示了过去对越狱攻击实际威胁的夸大。

关键观点总结

关键观点1: 背景介绍

目前LLM越狱攻击的评估存在一些问题，如依赖关键词匹配、毒性分数等间接指标，或者采用LLM作为裁判进行宏观判断，这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差。

关键观点2: JADES框架的核心思想

摒弃宏观的整体判断，借鉴教育评估领域的分析式评分思想，采用一种更精细、更可靠的「分解式评分」机制。将一个复杂的有害问题自动分解为一系列带权重的子问题，对模型针对每个子问题的回答进行独立评分。

关键观点3: JADES框架的具体运作

JADES框架包含四个协同工作的节点：问题分解节点、清理节点、子问题配对节点和评估节点。这些节点协同工作以确保评估的粒度和可靠性。

关键观点4: JADES框架的性能表现

研究人员构建了一个包含400对有害问题与越狱响应的基准数据集JailbreakQR用于验证JADES。在二元设置下，JADES与人类评估者的一致性达到98.5%，在三元分类任务中，JADES的准确率依然达到了86.3%。此外，JADES的每一步分解评分都可追踪，提高了整个评估流程的可解释性和透明度。

关键观点5: JADES框架的重要发现

JADES框架的一个重要发现是，以往的评估方法系统性地高估了越狱攻击的成功率。对于所有被测试的攻击方法，“完全成功”的案例在其总成功案例中的占比最高不超过0.25，这意味着大多数被传统二元指标记为“成功”的越狱，实际上只是“部分成功”。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博