关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3931人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

深度复盘:大疆是如何成为影像领域新巨头的?

极客公园 浏览 3439

美媒列29岁的阿贾生涯荣誉:3次MVP&DPOY 2次总冠军&7次全明星

直播吧 浏览 3672

男子家中冰箱门关不上灵机一动求助AI 差点花了冤枉钱

潇湘晨报 浏览 18003

张艺兴单依纯都在跳,“技能五子棋”是什么?

黔乡小姊妹 浏览 3986

这几条裙子太适合度假了,减龄又时髦!

LinkFashion 浏览 325

2026“乐购新春”盛宴开启,这三只浙股或迎最强“红包”行情

览富财经网 浏览 2443

布里斯班新科亚军科斯秋克:我的关于萨巴伦卡的话被断章取义

网球之家 浏览 2645

针对配置进行升级 新款小鹏G9官图发布

车质网 浏览 2710

"商务部公告附件首次改为wps格式"不实 至少5年前已用

极目新闻 浏览 7964

今年最流行的衣服竟然是它?高级又气质!

LinkFashion 浏览 787

币圈大佬的重生:特朗普特赦赵长鹏

节点财经 浏览 3644

短剧抄袭风波升级!评论区沦陷、预告下架,网友直言早该管理了

萌神木木 浏览 3072

“大战”危险升级,能否阻止就看特朗普了

浏览 26993

高市落泪称让民众不用担心中国 关键时刻金正恩出手了

时时有聊 浏览 21836

美国为何长期觊觎委石油 委专家:对美具有互补性

海外网 浏览 2749

斯图里奇:阿森纳踢得非常老练,他们传球精准&决策出色

懂球帝 浏览 2972

杰伦-约翰逊登顶老鹰队史三双榜 “新鹰王”已悄然诞生

仰卧撑FTUer 浏览 3046

特朗普开价10亿美元招募 被指试图用新机构替代联合国

极目新闻 浏览 7020

中俄关系为何不结盟?结伴不结盟好处更多

浏览 7485

《小城大事》:那么宏大,却又那么儿戏,我还是弃剧了

娱乐圈笔娱君 浏览 2645

内地第一美人,也塌房了

独立鱼 浏览 2638
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1