关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3934人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刘宇宁一天迎来两个喜讯,秦海璐没说谎

贵州小娟 浏览 2816

看到郭宇欣跑龙套旧照,站杨紫身边一点不输,才知啥叫小红靠捧

温柔娱公子 浏览 3371

小米SU7无法开门驾驶员死亡 雷军未发声累计掉粉29万

新闻坊 浏览 7489

葡媒:被换下后发生争执,卢克巴吉奥已经向穆帅和全队道歉

懂球帝 浏览 547

穿了十年仍然心动的外套,它算一件

黎贝卡的异想世界 浏览 2790

还得是她!杀疯了,也杀爽了!

吐槽电影院 浏览 2217

女子被堂妹邀请合伙做生意发现不对劲:我可是你姐姐啊

1818黄金眼 浏览 15331

苏州大学突破:8B模型实现长文理解媲美GPT-4o

科技行者 浏览 3445

广东3配角齐爆太惊喜!杜润旺陈家政三分即插即用,焦泊乔终暴走

篮球资讯达人 浏览 2698

两位民营企业家登上人民大会堂主席台

一见财经 浏览 1840

马杜罗在纽约法院首次出庭,对贩毒等指控表示"不认罪"

华尔街见闻官方 浏览 2767

当奥迪走上“对抗路”,特斯拉开始疲于招架

车市雷达 浏览 3659

M3旅行版上市售94.39万元 告别平行进口

网易汽车 浏览 3433

章泽天播客表现大翻车!采访接不上话脑袋空空,学霸人设遭质疑

萌神木木 浏览 2403

“大衣+运动鞋”才是冬天最时髦搭配,这样穿松弛又减龄!

LinkFashion 浏览 2676

曼联官方:召回小将惠特利,为北安普顿出场25次打进3球

懂球帝 浏览 2648

还没从上周财报中缓过来!博通、甲骨文再下挫,AI基础设施板块继续遭抛售

华尔街见闻官方 浏览 2964

三年打入越南Top 5,这家纸巾厂的出海秘诀是什么?

虎嗅APP 浏览 3748

2胜5平,输给曼城后利兹联已连续7轮英超保持不败

懂球帝 浏览 2753

最「可爱」的全新酷路泽 FJ 上线,这真不是方程豹在日本失散的兄弟?

爱范儿 浏览 3629

爱泼斯坦"自缢"后照片公开:脖子有血色勒痕

大风新闻 浏览 101447
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1