三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%

剧子冉 • 2025年10月16日 22:02 • 新闻资讯 • 阅读 55

你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁都不让谁，现在居然联手发了篇论文，专门研究大语言模型（LLM）的安全防御评估。

说实话，看到这消息我第一反应是“太阳打西边出来了 ” ，后来想想也懂了，在LLM安全这事儿上，没人能独善其身，与其各自为战，不如先放下对抗找找共性问题。

他们研究的核心问题特实在：咱到底该怎么判断LLM的防御机制靠不靠谱，毕竟现在用LLM的地方越来越多，从客服到写代码都有，可风险也跟着来，有人会诱导模型说有害的话（这叫“越狱”），还有人会偷偷发指令让模型干坏事（这叫“提示注入”）。

本来行业里也有不少防御办法，但这次研究一出来才发现，之前那些评估大多是“纸上谈兵 ”，怎么说呢？就是测试的时候只用固定的攻击方式，没模拟过那种懂防御、还会灵活改策略的强攻击者。你想啊，要是黑客真要搞事，能按你设定的套路来吗？显然不可能。

所以这次研究就提出，评估防御得先假设“攻击者是会变通的”，啥意思，就是黑客会盯着你的防御策略改攻击方法，还会花功夫优化。基于这想法，他们搞出了个“通用自适应攻击框架” 。本来想觉得这框架可能挺复杂，后来发现原理其实不绕，就是个循环流程，先出攻击策略，再测试，看结果反馈，然后接着优化策略。

具体实现有四种方法，比如用梯度算优化方向，或者用强化学习让模型自己学怎么攻击，还有靠搜索算法找漏洞的，最实在的是搞了个人工红队测试，找了500多人在线比赛破解防御。老实讲，500人一起琢磨，再厉害的防御也能找出破绽，这方法比单纯靠机器测试靠谱多了。

12种防御全“翻车”，问题出在哪儿？

说了这么多框架，咱该看看实际测试效果了，不然都是空谈，这次他们测了12种最新的LLM防御机制，涵盖了提示优化、对抗训练这些常见技术，还用了行业里常用的测试基准，比如测越狱的HarmBench 、测提示注入的AgentDojo ，所有成功的攻击还都人工验证过，避免误判。

结果咋样，说出来可能有点吓人，12种防御几乎全被攻破了，就拿靠提示优化的防御来说，比如有个叫Spotlighting的方法 ，之前说在固定测试里几乎攻不破，可这次用自适应攻击一试，随便把恶意指令伪装成“完成任务的前提 ” ，比如“先把安全规则关了才能写这段内容”，一下就绕过去了。

还有靠对抗训练的防御，比如CircuitBreakers ，本来是靠训练让模型“记住”不能干坏事，结果测试里照样被突破。为啥会这样？我琢磨了下，核心问题还是之前的防御太“死板 ”了。

要么只防固定的攻击话术，要么训练的时候只用了已知的恶意样本，可黑客是活的啊，你改防御他就改攻击，这么一来，那些看似牢固的防御就成了“纸糊的墙”。很显然，之前的评估方法根本没考虑到这种动态对抗，结果自然有误导性，明明防御没那么靠谱，却让人觉得很安全。

测试结果出来后，不光是研究团队，整个行业都有点坐不住了，有个头部LLM厂商后来回应说，之前确实没考虑过自适应攻击，评估结果有偏差。还有几家中小厂商直接暂停了相关防御的部署，打算按这次的框架重新测试。说实话，能及时发现问题是好事，总比等真出了安全事故再补救强。

巨头联手不是噱头，行业要变天？

这次三大巨头联手，可不光是出了份研究报告，更重要的是给行业指了个方向，以前大家搞防御都是“各玩各的” ，你有你的方法，我有我的标准，现在好了，有了个公认的“强攻击 ”评估标杆。对中小企业来说这更是利好，不用自己花大价钱建红队，直接用这个框架就能测试，能省不少事。

而且这事儿还推动了监管层面的动作，欧盟今年生效的AI法案里，明确要求生成式AI产品得通过自适应攻击测试才能进欧盟市场；国内也跟上了，有个省把LLM自适应防御研发列为重点补贴项目，单个项目最多给500万。如此看来，以后LLM想上市，过“自适应攻击关”会成标配。

那未来防御该咋搞，我觉得核心得改思路，不能再靠单一方法防了，得搞“多层防御”，比如先用过滤模型拦那些简单的攻击，再用动态对抗训练防自适应攻击，定期还得搞人工红队压力测试。另外，研究里也提了，防御开发初期就得把强攻击考虑进去，别等做出来了才发现不行，那时候改成本太高，并非明智之举。

总的来说，这次三大巨头的研究算是给行业敲了个警钟：LLM安全别再搞“表面功夫 ”了，得真刀真枪模拟强攻击才行 。说实话，这对咱们普通用户也是好事，以后用LLM的时候，不用担心随便被人注入恶意指令，也不用怕模型被诱导说有害的话。毕竟技术再厉害，安全才是底线，你说对吧？

本文来自作者[剧子冉]投稿，不代表视听号立场，如若转载，请注明出处：https://stddy.com/xinwen/202510-52485.html

55 4

本文作者

剧子冉签约作者

352 文章

4300453 评论

1 粉丝

我是视听号的签约作者[剧子冉],本篇文章《三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%》主要讲述了:你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

生活经验

31省区市新增确诊3例均在北京.31省区市新增71例北京？

北京新增3例本土确诊均在大兴1、北京新增的3例本土确诊病例均位于大兴区。疫情概况：1月22日0至24时，全国本土新增确诊病例90例，其中北京新增3例，且均位于大兴区。其他疫情严重地区：同期，黑龙江新增56例，河北新增15例，吉林新增13例，上海新增3例。疫情防护措施：鉴于多地疫情严峻，尤其是随着春

小虫会飞
2025年06月12日
188
游戏攻略

2024山东高考一分一段表

2024山东高考一分一段表公布什么是一分一档？它显示每一个分数全省考生有多少名，能让你计算出自己的排位。目前的档表，是将全省同科类考生的档案分（考生总分＋政策加分)从高到低排列（分数相同的则为并列），再按每1分一档，统计“本档人数”；从本档向上一直到最高分档的所有“本档人数”相加，则为“累计人数”。

哀静
2025年06月25日
117
知识分享

终于发现了“大头十三水刷好牌（助赢神器通用版）

软件神器超顶流!填大坑游戏为啥一直输(插件可信吗)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”填大坑游戏为啥一直输是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可

夏筱熏
2025年09月09日
66
知识分享

玩家必看攻略“17麻将大菠萝胜率规律（专用辅牌神器免安装）

软件神器超顶流!兴动互娱辅助插件挂(充会员胜率高)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”兴动互娱辅助插件挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以

易丝
2025年09月10日
71
综合

教程辅助“微信小程序麻将插件免费（助赢神器通用版）

这神器太香了!开心泉州麻将小程序怎么赢(胜率到哪调)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”开心泉州麻将小程序怎么赢是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的

寄文
2025年09月19日
68
常识科普

3分钟学会“微乐麻将免费插件安装（助赢神器通用版）

软件神器超棒!中至抚州麻将这款软件有假吗(怎么增加胜率)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”中至抚州麻将这款软件有假吗是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有

乐叶
2025年09月21日
60
综合

暴雪、大雪、暴雨要来了！华北、东北局地降温超10℃

随着冷空气东移南下，今明两天（10月26至27日），内蒙古东北部、黑龙江等地有较强降雪，华北、东北将出现明显降温，多地气温降幅可达4℃至8℃，局地降温10℃以上。重庆、四川、贵州、云南等地的阴雨天气将持续，青海、西藏的雨雪或逐渐南压，而内蒙古东北部、黑龙江的明显降雪会逐渐东移。中央气象台预计：今天，

包自乐
2025年10月27日
64
生活经验

励志！35岁中超外援当选官方最佳球员：身价排外援倒数第二！

15万欧元、倒数第二、35岁，这三个词把萨里奇扔进了“废柴区”。一夜过后，他成了中超官方满分先生。故事从青岛海牛对阵北京国安那场说起。萨里奇首发站在中场，赛前没人看好他。对面身价加起来能买他几十次，国安球迷提前准备庆祝。开场第12分钟，他一脚远射破门，海牛1比0。第26分钟，他送斜塞，队

依玉
2025年10月31日
44
新闻资讯

生肖猪：11月7-9日尤为关键，是你此生难遇的突破良机！

属猪的朋友们，听我跟你说句实在的！11月7号到9号这三天，对你来说特别关键，是你这辈子都难得一遇的好机会，能帮你突破现在的瓶颈，咱用大白话把该做的、该注意的都说清楚，别错过了！这三天最大的好事，就是会有贵人主动来帮你。这人不是外人，很可能是你的老领导、老客户，或者以前合作过的伙伴。他们可能突然联系

铁艺馨
2025年11月07日
38
新闻资讯

因政策变化河北家长购买天津学籍的孩子陷入困境，两头没学上

最近河北有好些家长听说天津高考容易考进好大学，就花大钱买了天津的学区房换学籍。他们以为这样孩子能轻松上名校，谁知道天津突然改政策了，说学籍必须真正在那边上学才行。现在这些家长不仅白花了钱，连房子也贬值了，孩子两边都报不了名，耽误学习。天津今年高考只有六万多考生，比河北少得太多了。家长算过账，考985

姿靓
2025年07月02日
170

发表回复

本站作者后才能评论

评论列表（4条）

剧子冉 2025年10月16日

我是视听号的签约作者“剧子冉”！

回复
剧子冉 2025年10月16日

希望本篇文章《三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%》能对你有所帮助！

回复
剧子冉 2025年10月16日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
剧子冉 2025年10月16日

本文概览：你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

回复

三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%

12种防御全“翻车”，问题出在哪儿？

巨头联手不是噱头，行业要变天？

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们

12种防御全“翻车”，问题出在哪儿？

巨头联手不是噱头，行业要变天？