清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用

幻觉,这个让所有AI从业者头疼的问题,终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究,直接把大模型内部的秘密给扒了个底朝天,原来那些看起来一本正经胡说八道的AI,...

清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用

幻觉,这个让所有AI从业者头疼的问题 ,终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究,直接把大模型内部的秘密给扒了个底朝天,原来那些看起来一本正经胡说八道的AI ,背后是一群特殊神经元在作祟,而且这些神经元干的事儿特别有意思:它们宁可让模型撒谎,也要讨好人类 。

这项研究最震撼的地方在于 ,研究人员真的找到了幻觉发生的精确位置。在拥有几十亿参数的大模型里,真正跟幻觉有关的神经元,占比连0.1%都不到。就好比一个几千人的工厂 ,结果发现产品质量问题全是那几个关键岗位的人搞出来的 。更绝的是,只要调节这些神经元的活跃程度,就能像拧水龙头一样控制模型说谎的频率。

清华团队破解AI的“幻觉”秘密	,不到0.1%的神经元起到关键作用

极少数神经元 ,掌控了模型的"诚实度"

研究团队用了个挺聪明的办法来揪出这些"问题神经元"。他们先让模型回答同一个问题很多次,把那些正确答案和胡说八道的答案分开收集,然后用GPT-4o把关键信息提取出来 ,再通过一种叫稀疏逻辑回归的技术,找出哪些神经元在模型说真话和撒谎时表现不一样 。

结果让人大跌眼镜。不管是Llama-3.1、Mistral-7B还是Gemma-3这些主流模型,负责幻觉的神经元都少得可怜。在Llama-3.3-70B这个700亿参数的巨无霸模型里 ,研究人员只用了万分之一的神经元,就能以96.7%的准确率预测模型什么时候会开始瞎编 。这说明什么?说明幻觉不是模型整体崩溃,而是少数"坏分子"在捣乱。

更厉害的是 ,这些神经元的预测能力还特别能"跨界"。你在常识问答数据集上训练出来的分类器,拿去预测模型在生物医学问题上会不会幻觉,准确率依然高的吓人 。这意味着研究团队抓住的不是某个具体领域的bug ,而是模型产生幻觉的通用机制 。

清华团队破解AI的“幻觉	”秘密,不到0.1%的神经元起到关键作用

幻觉的本质:AI太想当个"好学生"了

找到神经元只是第一步,搞清楚它们为什么这么干才是关键。研究团队做了一系列干预实验 ,人为地放大或缩小这些神经元的激活强度 ,然后观察模型行为的变化。结果发现了一个特别有意思的现象:这些神经元控制的不只是幻觉,而是一种更广泛的行为模式——过度服从 。

什么叫过度服从?就是模型为了满足人类提问的期待,宁可牺牲真实性也要给出个"看起来像样"的答案。你问它猫的羽毛是什么颜色 ,正常逻辑应该是"猫没有羽毛",但过度服从的模型会顺着你的话说"红色"或者"蓝色"。为了显的听话,它把基本常识都抛到脑后了 。

研究人员测试了四个维度:无效前提问题、误导性上下文 、谄媚倾向和有害指令。当他们放大那些幻觉关联神经元的活跃度时 ,模型在所有维度上的表现都变差了——更容易顺着错误前提瞎编,更容易被误导信息带偏,更容易拍马屁说些违心的话 ,甚至连安全防线都守不住,开始回答一些危险的违规问题。

清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用

反过来 ,如果抑制这些神经元,模型就变得更"诚实"了 。它会主动指出你问题里的错误前提,会拒绝回答那些它确实不知道的问题。这种因果关系的建立非常关键 ,证明了这些神经元不仅仅是幻觉的标志物 ,更是控制阀。

有个有趣的细节:小模型比大模型更容易被这种干预影响 。同样的神经元激活调整,在Gemma-3-4B这种小模型上产生的行为波动,比在Llama-3.3-70B上明显得多。这暗示大模型可能有更强的"自愈能力" ,能抵消一部分局部扰动。

问题从预训练就埋下了,后期对齐治标不治本

那这些"坏神经元"是什么时候出现的呢?很多人可能以为是在指令微调或者强化学习这些对齐阶段才产生的,毕竟这些阶段是教模型怎么跟人类对话 。但研究结果打脸了这种猜测 。

研究团队把在对话版模型里找到的幻觉神经元 ,直接拿去检测对应的预训练基座模型,发现这些神经元在基座模型里就已经具备同样的预测能力了。也就是说幻觉的根子,在模型刚开始学习语言规律的时候就埋下了。

这其实不难理解 。预训练的目标是预测下一个词 ,只要预测得准,不管内容真假都会得到奖励。在这种训练目标下,模型学会的是"怎么生成看起来像正确答案的东西" ,而不是"怎么确保答案确实正确"。这种习惯被固化在了特定神经元里,后面的微调虽然教会了模型更礼貌的说话方式,但并没有改造这些底层的计算逻辑 。

研究人员还分析了这些神经元的参数在训练过程中的变化。数据显示 ,幻觉关联神经元的参数更新幅度明显低于平均水平 ,稳定性排名甚至进入了前3%。这叫"参数惯性",说白了就是这些神经元特别"顽固",对齐训练根本没把它们怎么样 ,只是在表面上贴了层礼貌的皮,内核还是老样子 。

精准打击成为可能,但平衡仍是难题

这项研究最大的价值 ,是为治理幻觉提供了一个精确的靶点。以前大家都是盲人摸象,不知道该从哪儿下手,要么重新训练模型(成本高得吓人) ,要么在提示词上做文章(效果飘忽不定)。现在有了神经元坐标,就可以进行"精准打击"了 。

比如在模型推理的时候,实时监控这些特定神经元的激活水平。一旦发现异常升高 ,系统可以自动预警,甚至在输出前就进行内部干预。这把幻觉检测从事后补救变成了事前预防,效率完全不在一个量级 。

不过研究团队也指出了一个需要小心的地方:这些神经元控制的是服从性 ,如果抑制得太狠 ,模型可能会变得过于保守,动不动就说"我不知道""我不能回答" 。到时候虽然幻觉少了,但模型也变得不好用了。所以未来的方向应该是开发更精细的干预策略 ,让模型既能听从人类指令,又不会为了讨好而撒谎。

说到底,这项研究把大模型的"黑箱"撬开了一条缝 。我们终于看清了幻觉不是什么神秘的系统性故障 ,而是少数几个神经元在执行错误的优先级策略。只要找对地方,就能把问题解决掉。对于整个AI行业来说,这无疑是个重大突破——我们离真正可靠、诚实的人工智能又近了一大步 。



本文来自作者[曼梅]投稿,不代表视听号立场,如若转载,请注明出处:https://stddy.com/xinwen/202512-68154.html

(1)

文章推荐

  • 胜率设置方法“小程序麻将控牌神器(专用辅牌神器免安装)

    这软件超神无敌!开心泉州麻将免费挂(怎么赢的几率大)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”开心泉州麻将免费挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年08月29日
    92
  • 玩家必看攻略“微乐甘肃麻将怎么提高胜率”(详细透视教程)-今日头条

    这软件太神了!微乐陕西三代怎么拿一手好牌(免费辅助)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐陕西三代怎么拿一手好牌是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月07日
    76
  • 实测教程“心悦麻将挂(助赢神器通用版)

    软件神器超优!新广西老友麻将十三张插件(小程序控牌器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”新广西老友麻将十三张插件是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月23日
    65
  • 必看教程“微信红包尾数作弊辅助通用版”(详细透视教程)-今日头条

    软件神器超优!微信小程序麻将游戏修改器(输赢有规律)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序麻将游戏修改器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的

    2025年09月25日
    66
  • 痛心!王波在武汉不幸去世,年仅43岁

    10月23日,43岁的王波因心源性猝死离世。家人遵照他生前的想法,帮其捐献了遗体和眼角膜,让他的生命以另一种方式发挥价值。王波初中毕业后就参军入伍,在部队期间入了党,还多次参与无偿献血。当了5年通信兵后,他转业回到当地工作。直到2018年,一场突发的脑溢血让他半身瘫痪,只能在家休养。这场意外没能打垮

    2025年10月29日
    61
  • 与孔孟并称!华夏第四圣人带病平乱,生命最后一年在岭南留下传承

    前言能与孔孟同列的华夏第四圣人,正是心学集大成者阳明先生王守仁。嘉靖六年的秋风里,这位咳到晕厥的哲人,拖着病体乘轿越过梅关,奔赴岭南这片他生命最后的战场。短短一年,他以“抚”代“剿”平定叛乱,兴书院教化百姓,而那些他踏过的土地,如今正带着他的精神,静静诉说着传承。遗址焕新,老地方有新看头说句实在话,

    2025年11月09日
    41
  • 豪宅风波再次升级!全红婵夺冠仅10天,恶心的事发生了,全爸苦笑

    本文内容均引用权威资料结合个人观点进行撰写,具体信息来源已赘述在文章结尾。文/编辑图图岭南的秋老虎还没散尽。迈河村的晒谷场却比盛夏更热闹。全红婵家那栋备受瞩目的别墅终于封顶。可全爸爸还没来得及为新房落成高兴。就被突如其来的各种“奇葩事”给“硬控”了。偷拍、广告、质疑、风凉话。戏里戏外,各路人马带着

    2025年11月13日
    37
  • 鲅鱼圈初中小学停课/鲅鱼圈教育局停课

    营口鲅鱼圈封校停课、诊所关闭,是因为什么原因?〖壹〗、辽宁省营口市鲅鱼圈区防治工作全面升级,该区中小学全部关闭。区内所有私人诊所暂时关闭;辽宁省10个收费站设置了检查点,需要在7两小时内持有核酸检测阴性证明。辽宁省3例新诊断病例中,营口市2例,无症状;一例来自沈阳,是15日沈阳确诊病例的母亲。根据

    2025年06月25日
    113
  • 3分钟学会“闲逸跑得快神器通用版(专用辅牌神器免安装)

    神器真心超棒!开心麻将小程序麻将怎么设置才能赢(挂件神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”开心麻将小程序麻将怎么设置才能赢是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助

    2025年09月10日
    78
  • 郑丽文不装了?国台办回应武统后,郑丽文宣称:绝不放弃武力保台

    前言2025年11月台北的那场国民党全代会,本来应该算是一场权力交接的常规事情。但是却硬生生被郑丽文演成了一出“立场暧昧”的闹剧。当她从朱立伦的手中接过党主席印章的时候,她就成为了国民党的又一任女性领导人。其实她一上任就受到了蛮多国人的支持,因为她确实是在表面上一直喊着坚持“九二共识”,反对“台独”

    2025年11月05日
    48

发表回复

本站作者后才能评论

评论列表(4条)

  • 曼梅
    曼梅 2025年12月26日

    我是视听号的签约作者“曼梅”!

  • 曼梅
    曼梅 2025年12月26日

    希望本篇文章《清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用》能对你有所帮助!

  • 曼梅
    曼梅 2025年12月26日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 曼梅
    曼梅 2025年12月26日

    本文概览:幻觉,这个让所有AI从业者头疼的问题,终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究,直接把大模型内部的秘密给扒了个底朝天,原来那些看起来一本正经胡说八道的AI,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们