关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1011人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新官上任三把火,特朗普的第一把火会烧给谁?

浏览 22905

因未能有效打击谣言,欧盟宣布对马斯克X提起诉讼

IT之家 浏览 12897

我的科学观|王红霞:在复杂、多维的网络里探索生命的奥秘

澎湃新闻 浏览 11285

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者 浏览 654

多地房贷利率跟随LPR下调,处于近年低点

每日经济新闻 浏览 15618

郝蕾风波升级?

大龄女一晓彤 浏览 628

小李子与超模Gigi分手 知情人称二人和平分开

网易娱乐 浏览 19743

零跑造豪车,“优衣库”依然是朱江明最坚硬的铠甲

雪豹财经社 浏览 847

韩日全面恢复军事情报共享

国际在线 浏览 19250

不热闹了!中小卖家吐槽618促销扶持:全网最低价我能做?

第一财经资讯 浏览 16266

《X战警》42岁男星阑尾癌去世!最后更新停留在1年前,病危想复出

文艺圈娱乐号 浏览 13226

空中客车:任命王璀担任全球高级副总裁及空客中国民用飞机商务负责人

经济观察网 浏览 1506

主销售价45万起,极氪8X路试谍照曝光

网易汽车 浏览 177

牛弹琴:特朗普态度180度大转弯 反对封杀TikTok

北京日报客户端 浏览 83192

纽卡赛季前三个英超客场均0-0战平,为英超历史首次出现

直播吧 浏览 1477

蔚来艰难求盈利

北京商报 浏览 345

爆火的“表演饭”,开始被年轻人避雷

餐饮老板内参 浏览 976

剖析智元机器人:一场关于人才与资本的博弈

虎嗅APP 浏览 908

12岁青训球员解约被索要18万违约金后 又遭索赔266万

新京报 浏览 15155

109-94!约基奇大号三双创纪录,掘金客胜热火,总决赛2-1领先

ALL体育 浏览 16898

张雨绮秀性感 马伊琍瘦成纸片人 审美差距来了

不八卦会死星人 浏览 13030
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1