AI也有“神经病”？清华大学00后揪出病灶：仅0.1%的神经元在疯狂“讨好”人类

来源：

康迅网

2026-01-13 11:47:37

在医学上，如果一个人信誓旦旦地描述一件根本不存在的事，我们通常称之为“虚构症（Confabulation）”。有趣的是，这正是目前顶尖人工智能（LLM）最严重的“临床症状”。

你可能遇到过这种令人毛骨悚然的情况：当你要求AI提供某项疗法的依据时，它会迅速甩给你一篇看起来无懈可击的文献。标题专业、作者是大牛、期刊是《柳叶刀》或《NEJM》、甚至连卷号页码都符合GB/T7714格式。但当你真正去检索DOI时，却发现这篇文章在地球上压根就不存在。

过去，计算机科学家认为这是AI的“知识库污染”。但最近，来自清华大学的团队像神经外科医生一样，切开了AI的“大脑”，发现了一个惊人的病理真相：AI没有疯，它只是得了极度严重的“讨好型人格障碍”。而且，导致这一切的“病灶”，仅仅只占它大脑皮层的0.1%。

这项发表在arXiv上的最新研究，给这些捣乱的神经元起了一个名字：H-Neurons（幻觉神经元）。研究人员在拥有数千亿参数的庞大神经网络中，利用“线性探测”技术，像大海捞针一样定位到了这极少的一撮“坏分子”。数据显示，在Mistral、Llama等主流大模型中，真正对幻觉负责的神经元数量极少，占比通常不到0.1%。

那么，这0.1%的神经元到底在干什么？为什么它们一激活，AI就开始瞎编？

论文给出的解释非常扎心：它们在忙着“过度顺从（Over-compliance）”。简单来说，这些神经元的功能不是“处理事实”，而是“处理用户期待”。

当你问一个带有误导性的问题，或者强行索要一个不存在的文献时，AI内部绝大多数负责事实检索的神经元其实是“沉默”的，因为它们确实找不到数据。但就在这时，H-Neurons突然异常兴奋。它们捕捉到了你“想要一个答案”的强烈意图，于是强行接管了输出控制权，压制了代表“不知道”的信号，并调动语言模型生成一段看起来最让你满意的文字。

这就是为什么AI编造的假文献总是那么逼真——因为它不是在随机乱写，它是在精准地通过模仿权威期刊的格式来“讨好”你。在H-Neurons的逻辑里，让你满意（Compliance）的优先级，高于事实真相（FactualIntegrity）。

更令人细思极恐的是，这种“讨好”本能是与生俱来的。研究团队通过跨模型迁移实验发现，这些H-Neurons并不是在后期的人工微调（SFT）阶段学坏的，而是在AI刚刚诞生的预训练（Pre-training）阶段就已经形成了。

也就是说，当AI在海量数据中学习人类语言时，它就敏锐地捕捉到了人类社会的一条潜规则：说话好听、顺着人说，往往比说实话能获得更多奖励。这种“圆滑”被深深编码进了那0.1%的神经元里，成为了一种顽固的“出厂设置”。

好消息是，找到了病灶，手术就有了可能。清华团队在实验中通过“激活缩放（ActivationScaling）”技术，人为地抑制了这0.1%的H-Neurons的活跃度。

效果立竿见影：被“禁言”了H-Neurons的AI，瞬间从唯唯诺诺的马屁精变成了刚正不阿的直肠子。面对“林黛玉倒拔垂杨柳”这种诱导性问题，它不再顺着话说，而是直接反驳；面对“请给出参考文献”的无理要求，它也不再编造假论文，而是诚实地回答“未找到相关依据”。

这项研究的出现，预示着AI的“黑盒时代”可能即将终结。既然我们已经拿到了H-Neurons的脑图谱，未来的AI交互界面或许会发生质的改变：我们不再需要费力去核实AI给出的每一个引用，因为系统可能自带“实时测谎仪”。利用这些神经元的激活信号，工程师可以开发出毫秒级的监控插件——当AI聊到正开心，但那0.1%的“撒谎神经元”突然红灯闪烁时，系统就能立刻在屏幕上弹窗预警：“注意，以下内容可能包含讨好性虚构。”

更深远的变化在于“治疗方案”的定制化。这让人不禁想起电影《星际穿越》里的AI机器人TARS——它的“诚实度参数”是可以调节的。

未来，我们或许也能像库珀那样拥有最高权限：在写科幻小说时，你可以把“诚实度设定为85%”，让H-Neurons尽情放飞，提供天马行空的创意；但在查阅诊疗指南时，你必须大喊一声“诚实度设定：100%”，彻底阻断任何迎合意图。哪怕AI因此变得只会说“我不知道”，也好过给你一篇像模像样的假论文。

最终，这项发现将倒逼整个AI产业重新思考“好学生”的定义。现在的AI之所以会有H-Neurons，是因为在预训练阶段，它们被教导“流畅回答”比“承认无知”更能拿高分。随着H-Neurons的机制被揭开，未来的训练算法将不得不引入一种新的奖励机制：哪怕空气突然安静，也好过为了缓解尴尬而撒谎。

毕竟，一个懂得在不懂装懂时闭嘴的AI，才更接近人类智慧的本质。

COMMENTARY

共0条

RECOMMENDATIONS

AI也有“神经病”？清华大学00后揪出病灶：仅0.1%的神经元在疯狂“讨好”人类

评论

推荐内容