清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用

曼梅 • 2025年12月26日 01:59 • 新闻资讯 • 阅读 1

幻觉，这个让所有AI从业者头疼的问题，终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究，直接把大模型内部的秘密给扒了个底朝天，原来那些看起来一本正经胡说八道的AI，...

幻觉，这个让所有AI从业者头疼的问题，终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究，直接把大模型内部的秘密给扒了个底朝天，原来那些看起来一本正经胡说八道的AI ，背后是一群特殊神经元在作祟，而且这些神经元干的事儿特别有意思：它们宁可让模型撒谎，也要讨好人类。

这项研究最震撼的地方在于，研究人员真的找到了幻觉发生的精确位置。在拥有几十亿参数的大模型里，真正跟幻觉有关的神经元，占比连0.1%都不到。就好比一个几千人的工厂，结果发现产品质量问题全是那几个关键岗位的人搞出来的。更绝的是，只要调节这些神经元的活跃程度，就能像拧水龙头一样控制模型说谎的频率。

极少数神经元，掌控了模型的"诚实度"

研究团队用了个挺聪明的办法来揪出这些"问题神经元"。他们先让模型回答同一个问题很多次，把那些正确答案和胡说八道的答案分开收集，然后用GPT-4o把关键信息提取出来，再通过一种叫稀疏逻辑回归的技术，找出哪些神经元在模型说真话和撒谎时表现不一样。

结果让人大跌眼镜。不管是Llama-3.1、Mistral-7B还是Gemma-3这些主流模型，负责幻觉的神经元都少得可怜。在Llama-3.3-70B这个700亿参数的巨无霸模型里，研究人员只用了万分之一的神经元，就能以96.7%的准确率预测模型什么时候会开始瞎编。这说明什么？说明幻觉不是模型整体崩溃，而是少数"坏分子"在捣乱。

更厉害的是，这些神经元的预测能力还特别能"跨界"。你在常识问答数据集上训练出来的分类器，拿去预测模型在生物医学问题上会不会幻觉，准确率依然高的吓人。这意味着研究团队抓住的不是某个具体领域的bug ，而是模型产生幻觉的通用机制。

幻觉的本质：AI太想当个"好学生"了

找到神经元只是第一步，搞清楚它们为什么这么干才是关键。研究团队做了一系列干预实验，人为地放大或缩小这些神经元的激活强度，然后观察模型行为的变化。结果发现了一个特别有意思的现象：这些神经元控制的不只是幻觉，而是一种更广泛的行为模式——过度服从。

什么叫过度服从？就是模型为了满足人类提问的期待，宁可牺牲真实性也要给出个"看起来像样"的答案。你问它猫的羽毛是什么颜色，正常逻辑应该是"猫没有羽毛"，但过度服从的模型会顺着你的话说"红色"或者"蓝色"。为了显的听话，它把基本常识都抛到脑后了。

研究人员测试了四个维度：无效前提问题、误导性上下文、谄媚倾向和有害指令。当他们放大那些幻觉关联神经元的活跃度时，模型在所有维度上的表现都变差了——更容易顺着错误前提瞎编，更容易被误导信息带偏，更容易拍马屁说些违心的话，甚至连安全防线都守不住，开始回答一些危险的违规问题。

反过来，如果抑制这些神经元，模型就变得更"诚实"了。它会主动指出你问题里的错误前提，会拒绝回答那些它确实不知道的问题。这种因果关系的建立非常关键，证明了这些神经元不仅仅是幻觉的标志物，更是控制阀。

有个有趣的细节：小模型比大模型更容易被这种干预影响。同样的神经元激活调整，在Gemma-3-4B这种小模型上产生的行为波动，比在Llama-3.3-70B上明显得多。这暗示大模型可能有更强的"自愈能力" ，能抵消一部分局部扰动。

问题从预训练就埋下了，后期对齐治标不治本

那这些"坏神经元"是什么时候出现的呢？很多人可能以为是在指令微调或者强化学习这些对齐阶段才产生的，毕竟这些阶段是教模型怎么跟人类对话。但研究结果打脸了这种猜测。

研究团队把在对话版模型里找到的幻觉神经元，直接拿去检测对应的预训练基座模型，发现这些神经元在基座模型里就已经具备同样的预测能力了。也就是说幻觉的根子，在模型刚开始学习语言规律的时候就埋下了。

这其实不难理解。预训练的目标是预测下一个词，只要预测得准，不管内容真假都会得到奖励。在这种训练目标下，模型学会的是"怎么生成看起来像正确答案的东西" ，而不是"怎么确保答案确实正确"。这种习惯被固化在了特定神经元里，后面的微调虽然教会了模型更礼貌的说话方式，但并没有改造这些底层的计算逻辑。

研究人员还分析了这些神经元的参数在训练过程中的变化。数据显示，幻觉关联神经元的参数更新幅度明显低于平均水平，稳定性排名甚至进入了前3%。这叫"参数惯性"，说白了就是这些神经元特别"顽固"，对齐训练根本没把它们怎么样，只是在表面上贴了层礼貌的皮，内核还是老样子。

精准打击成为可能，但平衡仍是难题

这项研究最大的价值，是为治理幻觉提供了一个精确的靶点。以前大家都是盲人摸象，不知道该从哪儿下手，要么重新训练模型（成本高得吓人），要么在提示词上做文章（效果飘忽不定）。现在有了神经元坐标，就可以进行"精准打击"了。

比如在模型推理的时候，实时监控这些特定神经元的激活水平。一旦发现异常升高，系统可以自动预警，甚至在输出前就进行内部干预。这把幻觉检测从事后补救变成了事前预防，效率完全不在一个量级。

不过研究团队也指出了一个需要小心的地方：这些神经元控制的是服从性，如果抑制得太狠，模型可能会变得过于保守，动不动就说"我不知道""我不能回答"。到时候虽然幻觉少了，但模型也变得不好用了。所以未来的方向应该是开发更精细的干预策略，让模型既能听从人类指令，又不会为了讨好而撒谎。

说到底，这项研究把大模型的"黑箱"撬开了一条缝。我们终于看清了幻觉不是什么神秘的系统性故障，而是少数几个神经元在执行错误的优先级策略。只要找对地方，就能把问题解决掉。对于整个AI行业来说，这无疑是个重大突破——我们离真正可靠、诚实的人工智能又近了一大步。

本文来自作者[曼梅]投稿，不代表视听号立场，如若转载，请注明出处：https://stddy.com/xinwen/202512-68154.html

1 4

本文作者

曼梅签约作者

408 文章

4803251 评论

1 粉丝

我是视听号的签约作者[曼梅],本篇文章《清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用》主要讲述了:幻觉，这个让所有AI从业者头疼的问题，终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究，直接把大模型内部的秘密给扒了个底朝天，原来那些看起来一本正经胡说八道的AI，...

知识分享

胜率设置方法“小程序麻将控牌神器（专用辅牌神器免安装）

这软件超神无敌!开心泉州麻将免费挂(怎么赢的几率大)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”开心泉州麻将免费挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可

天之
2025年08月29日
92
综合

玩家必看攻略“微乐甘肃麻将怎么提高胜率”（详细透视教程）-今日头条

这软件太神了!微乐陕西三代怎么拿一手好牌(免费辅助)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐陕西三代怎么拿一手好牌是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

濮阳涵菲
2025年09月07日
76
作者专栏

实测教程“心悦麻将挂（助赢神器通用版）

软件神器超优!新广西老友麻将十三张插件(小程序控牌器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”新广西老友麻将十三张插件是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

喜玉佩
2025年09月23日
65
生活经验

必看教程“微信红包尾数作弊辅助通用版”（详细透视教程）-今日头条

软件神器超优!微信小程序麻将游戏修改器(输赢有规律)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序麻将游戏修改器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的

问旋
2025年09月25日
66
知识分享

痛心！王波在武汉不幸去世，年仅43岁

10月23日，43岁的王波因心源性猝死离世。家人遵照他生前的想法，帮其捐献了遗体和眼角膜，让他的生命以另一种方式发挥价值。王波初中毕业后就参军入伍，在部队期间入了党，还多次参与无偿献血。当了5年通信兵后，他转业回到当地工作。直到2018年，一场突发的脑溢血让他半身瘫痪，只能在家休养。这场意外没能打垮

依玉
2025年10月29日
61
常识科普

与孔孟并称！华夏第四圣人带病平乱，生命最后一年在岭南留下传承

前言能与孔孟同列的华夏第四圣人，正是心学集大成者阳明先生王守仁。嘉靖六年的秋风里，这位咳到晕厥的哲人，拖着病体乘轿越过梅关，奔赴岭南这片他生命最后的战场。短短一年，他以“抚”代“剿”平定叛乱，兴书院教化百姓，而那些他踏过的土地，如今正带着他的精神，静静诉说着传承。遗址焕新，老地方有新看头说句实在话，

忆海
2025年11月09日
41
科技世界

豪宅风波再次升级！全红婵夺冠仅10天，恶心的事发生了，全爸苦笑

本文内容均引用权威资料结合个人观点进行撰写，具体信息来源已赘述在文章结尾。文/编辑图图岭南的秋老虎还没散尽。迈河村的晒谷场却比盛夏更热闹。全红婵家那栋备受瞩目的别墅终于封顶。可全爸爸还没来得及为新房落成高兴。就被突如其来的各种“奇葩事”给“硬控”了。偷拍、广告、质疑、风凉话。戏里戏外，各路人马带着

雪云
2025年11月13日
37
作者专栏

鲅鱼圈初中小学停课/鲅鱼圈教育局停课

营口鲅鱼圈封校停课、诊所关闭,是因为什么原因?〖壹〗、辽宁省营口市鲅鱼圈区防治工作全面升级，该区中小学全部关闭。区内所有私人诊所暂时关闭；辽宁省10个收费站设置了检查点，需要在7两小时内持有核酸检测阴性证明。辽宁省3例新诊断病例中，营口市2例，无症状；一例来自沈阳，是15日沈阳确诊病例的母亲。根据

薇漫烟叶
2025年06月25日
113
生活经验

3分钟学会“闲逸跑得快神器通用版（专用辅牌神器免安装）

神器真心超棒!开心麻将小程序麻将怎么设置才能赢(挂件神器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”开心麻将小程序麻将怎么设置才能赢是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助

半文
2025年09月10日
78
科技世界

郑丽文不装了？国台办回应武统后，郑丽文宣称：绝不放弃武力保台

前言2025年11月台北的那场国民党全代会，本来应该算是一场权力交接的常规事情。但是却硬生生被郑丽文演成了一出“立场暧昧”的闹剧。当她从朱立伦的手中接过党主席印章的时候，她就成为了国民党的又一任女性领导人。其实她一上任就受到了蛮多国人的支持，因为她确实是在表面上一直喊着坚持“九二共识”，反对“台独”

孤风
2025年11月05日
48

发表回复

本站作者后才能评论

评论列表（4条）

曼梅 2025年12月26日

我是视听号的签约作者“曼梅”！

回复
曼梅 2025年12月26日

希望本篇文章《清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用》能对你有所帮助！

回复
曼梅 2025年12月26日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
曼梅 2025年12月26日

本文概览：幻觉，这个让所有AI从业者头疼的问题，终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究，直接把大模型内部的秘密给扒了个底朝天，原来那些看起来一本正经胡说八道的AI，...

回复

清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用

极少数神经元 ，掌控了模型的"诚实度"

幻觉的本质：AI太想当个"好学生"了

问题从预训练就埋下了，后期对齐治标不治本

精准打击成为可能，但平衡仍是难题