关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3915人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

长安马自达正在寻找新能源时代连接用户的新方式

澎湃新闻 浏览 3455

内塔尼亚胡被指传话无意攻击伊朗 与其公开表态相背离

红星新闻 浏览 9031

媒体:高市早苗胆子挺肥要住有名凶宅 安倍晋三都不敢

新民晚报 浏览 7901

保时捷4S店暴雷背后 两记“暴击”都是新势力给的

小李车评李建红 浏览 2933

"柴怼怼"被逮捕:因"打假"走红后售假 有人消费近10万

澎湃新闻 浏览 8265

万斯:照顾美国老年人比援助乌克兰重要

参考消息 浏览 8450

开发商送的阳台被收采暖费 业主起诉供热公司法院判了

大风新闻 浏览 8128

2025款比亚迪海狮05 EV完全评价报告

车质网 浏览 3552

E句话| 这对邪门CP又是哪里来的?

仙女事件簿 浏览 2817

9家县级农商行、农信社及9家村行大合并,股金、人员处置方案公布

湘财Plus 浏览 2632

以色列继续袭击约旦河西岸 哈马斯谴责

每日经济新闻 浏览 3402

59天后的春晚,她必是焦点

Yuki女人故事 浏览 3008

美媒:乌克兰向美国提交对最新“和平计划”的回复

澎湃新闻 浏览 2957

实测 Kimi K2.5 新版本,一键让一群 AI 来给我打工。

差评XPIN 浏览 2451

美国突袭委内瑞拉后,这些个股推动欧股创下历史新高

第一财经资讯 浏览 2644

天空:曼城想在冬窗签下一名中卫,格伊对转会曼城持开放态度

懂球帝 浏览 2603

外媒:泽连斯基向特朗普展示俄境内潜在打击目标地图

环球网资讯 浏览 9185

若乌方试图袭击克宫俄方将作何反应 佩斯科夫表态

环球网资讯 浏览 4237

打假博主被店主持30厘米长的斩骨刀追砍 后者被拘5日

潇湘晨报 浏览 7086

换装高功率电机,蔚来 firefly 萤火虫新车申报

IT之家 浏览 3432

美再向委周边调派装备和部队 专家:为发动攻击做准备

国际在线 浏览 2883
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1