关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1026人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

正式公示!一批新大学来了!

中国基金报 浏览 12572

田馥甄高调现身香港!喊话期盼内地演唱会,评论区留言笑发财了!

娱乐白名单 浏览 10809

别再穿“运动鞋”了!冬季这3双鞋子增高时髦,中年女人必备

静儿时尚达人 浏览 13393

演绎日式豪华MPV 全新日产Elgrand新车图解

车质网 浏览 275

要摊牌邮报:桑乔将与滕哈赫直接对话,有人认为滕帅优待安东尼

直播吧 浏览 14198

E句话 | 《奥本海默》横扫奥斯卡!

仙女事件簿 浏览 12311

朱一龙演渣男被问是否参考陈思诚 后者表情太精彩

盖饭娱乐官方号 浏览 15541

独行侠双杀开拓者:东契奇40+三双连创纪录 双队史第一+超张伯伦

醉卧浮生 浏览 13064

15个月来头一遭:今晚美联储“不加息”?

财联社 浏览 16011

女友BELLA+封面 | SUPER JUNIOR-D&E 双子星的友情叙事诗

伊周潮流 浏览 1905

林高远再输宿敌!张本智和携搭档3-0横扫,晋级男双半决赛!

乒谈 浏览 12749

以色列再次空袭叙利亚首都大马士革,反导系统成功拦截大部分导弹

趣看热点 浏览 26724

NASA准备用来自ULA的全新火箭发射美国首个私营月球着陆器

cnBeta.COM 浏览 12592

美媒:俄乌战场形势开始向俄倾斜 基辅情绪更加低落

环球网资讯 浏览 12648

恩里克:0-0通常让人觉得比赛沉闷,但今天完全不是这样

懂球帝 浏览 77

朱孝天方回应被踢出F4,刚合体时就挺不合群,如今开公司当老板

萌神木木 浏览 612

百亿资产转让频现 银行加速甩包袱

北京商报 浏览 999

射程1千公里 台"雄风-2E"导弹近20年来首次露面

海外网 浏览 14918

小加索尔签约湖人,所有的卫冕拼图已尽在湖人掌控

趣看热点 浏览 25799

"北大女生自杀案"宣判:男友犯虐待罪被判三年二个月

京法网事 浏览 91243

刘涛为95花作配,国民女星的资源降级还是新机遇?

八卦三缺一 浏览 1704
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1