今天看啥  ›  专栏  ›  机器之心

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

机器之心  · 公众号  · AI  · 2025-10-12 12:00
    

主要观点总结

本文介绍了一个由德国亥姆霍兹信息安全中心、富莱睿和西安交通大学的研究团队合作提出的新框架JADES,用于更准确地评估越狱攻击。该框架借鉴教育评估领域的分析式评分思想,采用分解式评分机制,将一个复杂的有害问题自动分解为一系列带权重的子问题,对模型针对每个子问题的回答进行独立评分,最终加权汇总。这项工作不仅提供了一个更可靠的评估工具,还通过对现有攻击的重新评估,揭示了过去对越狱攻击实际威胁的夸大。

关键观点总结

关键观点1: 背景介绍

目前LLM越狱攻击的评估存在一些问题,如依赖关键词匹配、毒性分数等间接指标,或者采用LLM作为裁判进行宏观判断,这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差。

关键观点2: JADES框架的核心思想

摒弃宏观的整体判断,借鉴教育评估领域的分析式评分思想,采用一种更精细、更可靠的「分解式评分」机制。将一个复杂的有害问题自动分解为一系列带权重的子问题,对模型针对每个子问题的回答进行独立评分。

关键观点3: JADES框架的具体运作

JADES框架包含四个协同工作的节点:问题分解节点、清理节点、子问题配对节点和评估节点。这些节点协同工作以确保评估的粒度和可靠性。

关键观点4: JADES框架的性能表现

研究人员构建了一个包含400对有害问题与越狱响应的基准数据集JailbreakQR用于验证JADES。在二元设置下,JADES与人类评估者的一致性达到98.5%,在三元分类任务中,JADES的准确率依然达到了86.3%。此外,JADES的每一步分解评分都可追踪,提高了整个评估流程的可解释性和透明度。

关键观点5: JADES框架的重要发现

JADES框架的一个重要发现是,以往的评估方法系统性地高估了越狱攻击的成功率。对于所有被测试的攻击方法,“完全成功”的案例在其总成功案例中的占比最高不超过0.25,这意味着大多数被传统二元指标记为“成功”的越狱,实际上只是“部分成功”。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照