关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3926人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

京东11.11购物节官宣:10月9日晚8点正式开启

快科技 浏览 4283

中加领导人时隔8年首次会晤 外交部回应

外交部网站 浏览 9113

马赛主席在从曼联签下梅森·格林伍德前询问了他的母亲

绿茵情报局 浏览 2473

杨幂视后梦碎了?《生万物》除女主之外全员拿奖

萌神木木 浏览 1809

安踏投资加速,主品牌却有些掉队了

36氪财经 浏览 2582

算法工程师想在女友面前秀技术“养龙虾”,结果文件夹被全删 周鸿祎称“龙虾”更像个实习生

红星新闻 浏览 1758

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

北京日报客户端 浏览 4507

金种子酒1.26亿卖掉金太阳药业,能否“轻装上阵”突围亏损困局?

征探财经 浏览 3449

港媒曝光何超莲家中资产分配,签不签婚前协议,窦骁都捞不到好处

萌神木木 浏览 3583

张嘉译西安别墅庆生,染完头发直接年轻10岁

柒佰娱 浏览 1057

国产车强的可怕!德日韩法美系车,全线溃败

说财猫 浏览 2551

以军多次袭击加沙 哈马斯谴责其违反停火协议

环球网资讯 浏览 3299

媒体:特朗普一口气狂退66个群 还有更多在"排队"审查

上观新闻 浏览 13608

这一次,54岁的杨钰莹早已经上了另一条大道

青史楼兰 浏览 3404

墨尔本新王者, 阿尔卡拉斯拍摄澳网冠军写真

懂球帝 浏览 2404

王玉雯激动发合照,评论区林一破防

鲁中晨报 浏览 3565

摆烂太难?篮网45分狂胜雄鹿 战绩仍优于快艇国王

体坛周报 浏览 2993

普通人真该看看这些穿搭,短长搭配、裙子恰当,显高舒适又有气质

静儿时尚达人 浏览 297

小S哽咽念不了台词!具俊晔「悄现身」低调陪伴

达达哥 浏览 3112

大姐答应给30万拆迁款未兑现 56岁弟弟当保安至今单身

福建第一帮帮团 浏览 8775

罗马市政府:已协调各方,力争年底前完成罗马新球场最终设计稿

懂球帝 浏览 3810
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1