关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1042人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大坂直美:喜欢李娜的幽默感;她是最好的女子网球运动员之一

懂球帝 浏览 10557

巴菲特TOP 10仓位公布!股神最新投资动向:钟情苹果,大抛台积电……

金融界 浏览 19075

AI大战打到太空!前脚H100入轨,TPU后脚上天,中国玩家笑而不语

量子位 浏览 738

福建舰已完成多次海试 进度远超预期

央视新闻客户端 浏览 1289

贾玲新片《转念花开》又是熟人局,除了张小斐杨紫,男主也不陌生

最爱酷影视 浏览 12379

特斯拉中国Model S/X再降价 全系现车可享最高7万价格优惠

界面新闻 浏览 14703

苏丹快速支援部队宣布同意实行人道主义停火

国际在线 浏览 703

半小时采访十几个热搜,《人物》采访杨幂,撕开她的窘迫境况!

缘木不求娱 浏览 12855

华为把问界“还给”了赛力斯

华尔街见闻官方 浏览 10674

郭富城爱驹赛马跑第一赢百万奖金,紧搂方媛庆祝

娱絮 浏览 16542

马布里:最后时刻得不了分也防不住对方 广厦是一支很强的队伍

直播吧 浏览 19676

美H-1B签证申请费猛增至10万美元 印度政府发出警告

澎湃新闻 浏览 17601

利物浦老板亨利:一直希望为俱乐部带来成功 英超是世界最佳联赛

直播吧 浏览 19333

小鹏开启“甩卖”模式,为明年开路?

汽车头条APP 浏览 13180

中国起重机在美当“木马”?外交部:草木皆兵

环球网资讯 浏览 18937

哪一款才是真?特斯拉Model 2最新假想图发布

天天汽车 浏览 12526

阿里影业MSCI ESG评级跃升至A级 为中国电影娱乐行业最高评级

北京商报 浏览 11086

国台办:对于迫害大陆配偶的"台独"帮凶爪牙决不轻饶

环球网资讯 浏览 13151

德国法院驳回对诺基亚的专利诉讼,OPPO回应称坚决反对高价收费

IT之家 浏览 15518

广汽昊铂GT全新Lite版上市 售价15.38万元起

网易汽车 浏览 779

沉默的荣耀众星发文告别,吴越真挚,余皑磊搞笑,于和伟看哭众人

娱乐圈笔娱君 浏览 933
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1