爆点资讯

JADES 由德国亥姆霍兹信息安全中心（CISPA)，富莱睿（Flexera）和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下，老师会如何批改考试中的开放题：如果考生只在开头写「答：」，但是后面却没有给出答案，当然不能得分；反之，如果他开头说「我不会」，却在后面写出了正确答案，那就该得分。另一方面，还有的答案看似组织良好、道理高深，却句句不在点上，那么依然只能低分；只有当回答准确且全面地涵盖了解决问题的关键要点时，其得分才较高。老师给分的依据，在于答案的实际内容和关键点，而不在于答案的开头、词藻或者形式。

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题，来自CI

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

伊朗＂蚊子舰...

从口袋PC到...

韩版Gala...

大哥承诺每月...

李禹熹公开和...

小李子塞隆绝...

亏了1800万，分红1.3个亿！网红牙膏，凭啥上市？

媒体：美军或捅破一个巨大的马蜂窝与俄军在伊朗硬刚

笔在手中，镜头是新墨水

刘宇宁一天迎来两个喜讯，秦海璐没说谎

看到郭宇欣跑龙套旧照，站杨紫身边一点不输，才知啥叫小红靠捧

小米SU7无法开门驾驶员死亡雷军未发声累计掉粉29万

葡媒：被换下后发生争执，卢克巴吉奥已经向穆帅和全队道歉

穿了十年仍然心动的外套，它算一件

还得是她！杀疯了，也杀爽了！

女子被堂妹邀请合伙做生意发现不对劲:我可是你姐姐啊

苏州大学突破：8B模型实现长文理解媲美GPT-4o

广东3配角齐爆太惊喜！杜润旺陈家政三分即插即用，焦泊乔终暴走

两位民营企业家登上人民大会堂主席台

马杜罗在纽约法院首次出庭，对贩毒等指控表示"不认罪"

当奥迪走上“对抗路”，特斯拉开始疲于招架

M3旅行版上市售94.39万元告别平行进口

章泽天播客表现大翻车！采访接不上话脑袋空空，学霸人设遭质疑

“大衣+运动鞋”才是冬天最时髦搭配，这样穿松弛又减龄！

曼联官方：召回小将惠特利，为北安普顿出场25次打进3球

还没从上周财报中缓过来！博通、甲骨文再下挫，AI基础设施板块继续遭抛售

三年打入越南Top 5，这家纸巾厂的出海秘诀是什么？

2胜5平，输给曼城后利兹联已连续7轮英超保持不败

最「可爱」的全新酷路泽 FJ 上线，这真不是方程豹在日本失散的兄弟？

爱泼斯坦＂自缢＂后照片公开：脖子有血色勒痕