关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3927人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

搭载地平线征程6E 全新MG4 530将于10月底开启交付

网易汽车 浏览 3617

她不靠穿搭谋生,却因穿搭走红,在穿衣上找到主体性是什么体验?

黎贝卡的异想世界 浏览 3482

“双11”本地之战|淘宝便利店剑指美团腹地 电商巨头激战线下“最后一公里”

北京商报 浏览 3541

晋级澳网四强!辛纳:期待与德约在半决赛对决,他是我的榜样

懂球帝 浏览 2539

新年资金入市!超450亿公募资金到位,“万亿活水”在路上

券商中国 浏览 2658

新奥能源研究院院长刘敏胜:探索球形环氢硼聚变技术,开发商用聚变能源

红星新闻 浏览 3793

这些年轻科学家不再满足于“追赶美国”

知识分子 浏览 4177

拥抱变局!2025外滩年会揭幕,聚焦新秩序、新科技

国际金融报 浏览 3714

直接避开佟丽娅基因,陈思诚儿子帅出新高度,父子如复制粘贴

娱乐圈笔娱君 浏览 4302

经历168小时返程5次改机票 滞留邮轮上旅游团终于回家

极目新闻 浏览 32301

泽连斯基:乌克兰计划2027年加入欧盟

财联社 浏览 6291

招股书里的MiniMax:当聪明人决定不再为巨头打工

华尔街见闻官方 浏览 2879

76人新赛季不败金身被破,全胜球队仅剩马刺、雷霆和公牛

懂球帝 浏览 3529

一年蛰伏,亮剑CES:吉利智驾业务深度整合后,交出怎样一份全球化答卷?

封面新闻 浏览 2732

美媒:泽连斯基未拒绝领土问题 要求提供更多细节

环球时报国际 浏览 8548

何超莲再破天花板 让窦骁和豪门圈“沉默”了?

东方不败然多多 浏览 3181

岚图汽车2025年交付150169辆 同比增87%

网易汽车 浏览 2826

陈赫40岁生日合影惹争议?

萌神木木 浏览 2730

57岁寻亲志愿者离世:为数百人找到家 自己却未能回家

扬子晚报 浏览 21245

“麂皮包”越来越流行,秋冬怎么搭都好看

LinkFashion 浏览 2758

闪充加持 新款方程豹豹8申报信息曝光

车质网 浏览 1754
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1