三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

你敢信,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了。这仨可是公认的竞争对手,之前在模型能力、市场份额上谁...

你敢信 ,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了 。这仨可是公认的竞争对手,之前在模型能力 、市场份额上谁都不让谁 ,现在居然联手发了篇论文 ,专门研究大语言模型(LLM)的安全防御评估。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

说实话,看到这消息我第一反应是“太阳打西边出来了 ” ,后来想想也懂了,在LLM安全这事儿上,没人能独善其身 ,与其各自为战,不如先放下对抗找找共性问题。

他们研究的核心问题特实在:咱到底该怎么判断LLM的防御机制靠不靠谱,毕竟现在用LLM的地方越来越多 ,从客服到写代码都有,可风险也跟着来,有人会诱导模型说有害的话(这叫“越狱”) ,还有人会偷偷发指令让模型干坏事(这叫“提示注入”) 。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

本来行业里也有不少防御办法,但这次研究一出来才发现 ,之前那些评估大多是“纸上谈兵 ” ,怎么说呢?就是测试的时候只用固定的攻击方式,没模拟过那种懂防御、还会灵活改策略的强攻击者 。你想啊,要是黑客真要搞事 ,能按你设定的套路来吗?显然不可能。

所以这次研究就提出,评估防御得先假设“攻击者是会变通的 ”,啥意思 ,就是黑客会盯着你的防御策略改攻击方法,还会花功夫优化。基于这想法,他们搞出了个“通用自适应攻击框架” 。本来想觉得这框架可能挺复杂 ,后来发现原理其实不绕,就是个循环流程,先出攻击策略 ,再测试,看结果反馈,然后接着优化策略。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

具体实现有四种方法 ,比如用梯度算优化方向,或者用强化学习让模型自己学怎么攻击,还有靠搜索算法找漏洞的 ,最实在的是搞了个人工红队测试,找了500多人在线比赛破解防御。老实讲,500人一起琢磨 ,再厉害的防御也能找出破绽,这方法比单纯靠机器测试靠谱多了 。

12种防御全“翻车”,问题出在哪儿?

说了这么多框架 ,咱该看看实际测试效果了,不然都是空谈,这次他们测了12种最新的LLM防御机制 ,涵盖了提示优化、对抗训练这些常见技术,还用了行业里常用的测试基准,比如测越狱的HarmBench 、测提示注入的AgentDojo ,所有成功的攻击还都人工验证过 ,避免误判。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

结果咋样,说出来可能有点吓人 ,12种防御几乎全被攻破了,就拿靠提示优化的防御来说,比如有个叫Spotlighting的方法 ,之前说在固定测试里几乎攻不破,可这次用自适应攻击一试,随便把恶意指令伪装成“完成任务的前提 ” ,比如“先把安全规则关了才能写这段内容”,一下就绕过去了。

还有靠对抗训练的防御,比如CircuitBreakers ,本来是靠训练让模型“记住”不能干坏事,结果测试里照样被突破 。为啥会这样?我琢磨了下,核心问题还是之前的防御太“死板 ”了。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

要么只防固定的攻击话术 ,要么训练的时候只用了已知的恶意样本,可黑客是活的啊,你改防御他就改攻击 ,这么一来,那些看似牢固的防御就成了“纸糊的墙”。很显然,之前的评估方法根本没考虑到这种动态对抗 ,结果自然有误导性,明明防御没那么靠谱,却让人觉得很安全 。

测试结果出来后 ,不光是研究团队,整个行业都有点坐不住了,有个头部LLM厂商后来回应说 ,之前确实没考虑过自适应攻击,评估结果有偏差。还有几家中小厂商直接暂停了相关防御的部署,打算按这次的框架重新测试。说实话 ,能及时发现问题是好事 ,总比等真出了安全事故再补救强 。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

巨头联手不是噱头,行业要变天?

这次三大巨头联手 ,可不光是出了份研究报告,更重要的是给行业指了个方向,以前大家搞防御都是“各玩各的” ,你有你的方法,我有我的标准,现在好了 ,有了个公认的“强攻击 ”评估标杆 。对中小企业来说这更是利好,不用自己花大价钱建红队,直接用这个框架就能测试 ,能省不少事。

而且这事儿还推动了监管层面的动作,欧盟今年生效的AI法案里,明确要求生成式AI产品得通过自适应攻击测试才能进欧盟市场;国内也跟上了 ,有个省把LLM自适应防御研发列为重点补贴项目 ,单个项目最多给500万。如此看来,以后LLM想上市,过“自适应攻击关”会成标配 。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

那未来防御该咋搞,我觉得核心得改思路,不能再靠单一方法防了 ,得搞“多层防御”,比如先用过滤模型拦那些简单的攻击,再用动态对抗训练防自适应攻击 ,定期还得搞人工红队压力测试。另外,研究里也提了,防御开发初期就得把强攻击考虑进去 ,别等做出来了才发现不行,那时候改成本太高,并非明智之举。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

总的来说 ,这次三大巨头的研究算是给行业敲了个警钟:LLM安全别再搞“表面功夫 ”了,得真刀真枪模拟强攻击才行 。说实话,这对咱们普通用户也是好事 ,以后用LLM的时候,不用担心随便被人注入恶意指令,也不用怕模型被诱导说有害的话。毕竟技术再厉害 ,安全才是底线,你说对吧?

本文来自作者[剧子冉]投稿,不代表视听号立场,如若转载,请注明出处:https://stddy.com/xinwen/202510-52485.html

(4)

文章推荐

  • 辽宁新增8例本土确诊.辽宁新增8例本土确诊病例?

    31省区市新增本土确诊8例均在大连(全国疫情最新报道)〖壹〗、月16日全国疫情最新报道显示,31省区市新增本土确诊病例8例,均在大连。具体情况如下:新增确诊病例总数:31个省(自治区、直辖市)和新疆生产建设兵团报告新增确诊病例31例。〖贰〗、引言:我国本土确诊病例最近在持续的增加,据国家卫健委通报

    2025年06月25日
    93
  • 北京的梵净山2025.7.5

    昨天周六,5/735双色大乐透里的中奖号码。看像不像梵净山,很像天上的南天门,北京平谷的丫鬟山,郊区的山夏季非常养眼,空气都能清肺,周六日城里出去郊外就是堵车太闹心,坐车感觉好远,现在正是平谷各种桃子成熟季,昨天是最后一波登顶的游客,在下班时间到达,顶峰王二奶奶庙,门票成人50元,在城里一直见不到

    2025年07月08日
    109
  • 【湖南新冠疫情最新消息今天,湖南新冠疫情最新消息今天封城了】

    湖南对确诊新冠肺炎的治愈率全国领先,这究竟是怎么炼成的?〖壹〗、除了防控工作做的早,充分阻断了疫情的传播,使得感染人数被严格控制,这样患者增量降低的同时,治愈率不断上升使得湖南的治愈率全国领先。除了防控工作有效外,湖南省的医疗水平在全国那也是很先进的,医务人员队伍整体技术能力很强,而且人员齐备,这

    2025年07月09日
    83
  • 【微乐掼蛋小程序辅助软件(揭秘微信里如何让牌变好),微乐里蛋随庄走什么规则】

    微乐掼蛋配牌无法选中怎么回事网络的问题。无法选取多数是网络连接异常导致。首先检查手机网络。其次打开微乐进行测试网络连接是否异常。最后等待网络连接正常时,点击微乐掼蛋页面刷新即可,是否继续出现配牌无法选取的问题。在微乐斗地主中,查看战绩回放的操作步骤如下:首先,玩家需进入游戏主界面,找到并点击位于下

    2025年07月14日
    81
  • 云来麻将真的确实是有挂(到底是否有挂)/台州云来麻将安卓版

    描写“麻将”的诗词有哪些?麻将诗句七律:麻将(一)迷恋修城无奈何,以麻会友尽蹉跎。抓千摸白红花唱,弃万扔筒小鸟歌。闲吐开门藏巨浪,忙杠胡宝定风波。方砖垒拆何时尽,我与麻友在揣磨。麻将(二)喜爱方城谁奈何,我与麻友付蹉跎。吃牌逢碰难言语,兑宝遭胡羞唱歌。常作大龙掀骇浪,偶生小听息风波。摸飘夹五心神惬

    2025年07月18日
    130
  • 玩家实测“哥哥跑得快有挂吗(专用辅牌神器免安装)

    软件神器超亮眼!中至赣州麻将能作假吗(输赢有什么规律)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”中至赣州麻将能作假吗是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用

    2025年09月22日
    26
  • 分享辅助“手机跑得快助赢神器(助赢神器通用版)

    超绝软件工具!手机打两圈麻将辅牌器购买(怎么能调好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”手机打两圈麻将辅牌器购买是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月23日
    27
  • 终于发现了“微乐斗地主透视神器怎么安装(助赢神器通用版)

    软件神器登场!微信小程序微乐麻将怎么提高胜率(有什么规律)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序微乐麻将怎么提高胜率是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神

    2025年09月29日
    16
  • 张明达同志逝世,中央有关领导同志以不同方式表示哀悼

    新华社10月9日消息,原武汉钢铁(集团)公司党委书记张明达同志,因病于2025年9月17日在湖北武汉逝世,享年83岁。张明达同志逝世后,中央有关领导同志以不同方式表示哀悼并向其亲属表示慰问。张明达,1942年8月生,江苏江阴人。1958年8月参加工作,1970年1月加入中国共产党。1958年8月至1

    2025年10月09日
    14
  • 实测分享“程序麻将机软件(专用辅牌神器免安装)

    软件神器超棒!微乐家乡麻将助赢神器购买(软件出售)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐家乡麻将助赢神器购买是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用

    2025年09月26日
    22

发表回复

本站作者后才能评论

评论列表(4条)

  • 剧子冉
    剧子冉 2025年10月16日

    我是视听号的签约作者“剧子冉”!

  • 剧子冉
    剧子冉 2025年10月16日

    希望本篇文章《三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%》能对你有所帮助!

  • 剧子冉
    剧子冉 2025年10月16日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 剧子冉
    剧子冉 2025年10月16日

    本文概览:你敢信,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了。这仨可是公认的竞争对手,之前在模型能力、市场份额上谁...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们