关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3913人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

离婚5年,她真的面相大变

江湖人称艾掌门 浏览 2885

经济观察报:深圳4-4卓尔涉5000万的假球,没赢是李铁不想输

懂球帝 浏览 3640

辽宁加时95-82江苏,赵继伟16+7+8,威尔斯21分

懂球帝 浏览 2404

比亚迪明星高管赵长江确认离职,已在比亚迪工作16年

红星资本局 浏览 3568

纳瓦斯:得知转会曼联失败我十分冷静,这激励了我的皇马生涯

懂球帝 浏览 1923

46岁董璇被曝怀二胎,本人现身机场脱外套辟谣,小腹平坦状态超好

扒虾侃娱 浏览 3632

把玄戒O1念成“玄戒零一”,雷军认错:确实是讲错了

三言科技 浏览 2709

2025国产公交车1-11月出口:宇通6512辆,比亚迪第2,厦门金龙第6

小鹏财经 浏览 2698

贝壳豪掷23亿美元回购,董事长彭永东“花公司钱为自己股票护盘”

财经众议院 浏览 3351

65岁林俊贤广东景区打工,年过6旬老成“龙王”,努力赚钱不丢人

温柔娱公子 浏览 3800

豪门赘婿,惨被退货?

仙女事件簿 浏览 3618

越级空间 长安启源A06上市售10.99万元起

网易汽车 浏览 3395

64岁男演员春节在景区打工,暴瘦引担忧!

扬子晚报 浏览 2005

范曾与女儿、继子断绝关系 其与妻子新公司本月刚成立

红星新闻 浏览 19840

委代总统最新发声:将继续发展石油和天然气产业

环球网资讯 浏览 7160

人均预期寿命提高至80岁,失能老人如何有尊严地活着?两会代表委员建言:服务不能“一刀切”

时代周报 浏览 1698

消息称SK海力士与英伟达达成HBM4供应协议,价格较上代上涨50%

IT之家 浏览 3476

苹果发布iPhone 17e,起售价4499元

澎湃新闻 浏览 1866

穿了10年还在火,这件外套买得真值!

黎贝卡的异想世界 浏览 2616

女人过了60岁打扮要得体!看这些穿搭就有灵感,简约不老气

静儿时尚达人 浏览 3664

全网围观,这年度夫妻撕叉大戏来了

独立鱼 浏览 2973
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1