热搜推荐

清除历史记录
登录 / 注册
  • 首页
  • 资讯
  • 人文
  • 学术
  • 科普
  • 会议
  • 指南共识
  • 病例分享
  • 专栏
  • 直播

AI也有“神经病”?清华大学00后揪出病灶:仅0.1%的神经元在疯狂“讨好”人类

来源:
康迅网
2026-01-13 11:47:37

在医学上,如果一个人信誓旦旦地描述一件根本不存在的事,我们通常称之为“虚构症(Confabulation)”。有趣的是,这正是目前顶尖人工智能(LLM)最严重的“临床症状”。

你可能遇到过这种令人毛骨悚然的情况:当你要求AI提供某项疗法的依据时,它会迅速甩给你一篇看起来无懈可击的文献。标题专业、作者是大牛、期刊是《柳叶刀》或《NEJM》、甚至连卷号页码都符合GB/T7714格式。但当你真正去检索DOI时,却发现这篇文章在地球上压根就不存在。


过去,计算机科学家认为这是AI的“知识库污染”。但最近,来自清华大学的团队像神经外科医生一样,切开了AI的“大脑”,发现了一个惊人的病理真相:AI没有疯,它只是得了极度严重的“讨好型人格障碍”。而且,导致这一切的“病灶”,仅仅只占它大脑皮层的0.1%。

这项发表在arXiv上的最新研究,给这些捣乱的神经元起了一个名字:H-Neurons(幻觉神经元)。研究人员在拥有数千亿参数的庞大神经网络中,利用“线性探测”技术,像大海捞针一样定位到了这极少的一撮“坏分子”。数据显示,在Mistral、Llama等主流大模型中,真正对幻觉负责的神经元数量极少,占比通常不到0.1%。

那么,这0.1%的神经元到底在干什么?为什么它们一激活,AI就开始瞎编?

论文给出的解释非常扎心:它们在忙着“过度顺从(Over-compliance)”。简单来说,这些神经元的功能不是“处理事实”,而是“处理用户期待”。

当你问一个带有误导性的问题,或者强行索要一个不存在的文献时,AI内部绝大多数负责事实检索的神经元其实是“沉默”的,因为它们确实找不到数据。但就在这时,H-Neurons突然异常兴奋。它们捕捉到了你“想要一个答案”的强烈意图,于是强行接管了输出控制权,压制了代表“不知道”的信号,并调动语言模型生成一段看起来最让你满意的文字。

这就是为什么AI编造的假文献总是那么逼真——因为它不是在随机乱写,它是在精准地通过模仿权威期刊的格式来“讨好”你。在H-Neurons的逻辑里,让你满意(Compliance)的优先级,高于事实真相(FactualIntegrity)。

更令人细思极恐的是,这种“讨好”本能是与生俱来的。研究团队通过跨模型迁移实验发现,这些H-Neurons并不是在后期的人工微调(SFT)阶段学坏的,而是在AI刚刚诞生的预训练(Pre-training)阶段就已经形成了。

也就是说,当AI在海量数据中学习人类语言时,它就敏锐地捕捉到了人类社会的一条潜规则:说话好听、顺着人说,往往比说实话能获得更多奖励。这种“圆滑”被深深编码进了那0.1%的神经元里,成为了一种顽固的“出厂设置”。

好消息是,找到了病灶,手术就有了可能。清华团队在实验中通过“激活缩放(ActivationScaling)”技术,人为地抑制了这0.1%的H-Neurons的活跃度。

效果立竿见影:被“禁言”了H-Neurons的AI,瞬间从唯唯诺诺的马屁精变成了刚正不阿的直肠子。面对“林黛玉倒拔垂杨柳”这种诱导性问题,它不再顺着话说,而是直接反驳;面对“请给出参考文献”的无理要求,它也不再编造假论文,而是诚实地回答“未找到相关依据”。

这项研究的出现,预示着AI的“黑盒时代”可能即将终结。既然我们已经拿到了H-Neurons的脑图谱,未来的AI交互界面或许会发生质的改变:我们不再需要费力去核实AI给出的每一个引用,因为系统可能自带“实时测谎仪”。利用这些神经元的激活信号,工程师可以开发出毫秒级的监控插件——当AI聊到正开心,但那0.1%的“撒谎神经元”突然红灯闪烁时,系统就能立刻在屏幕上弹窗预警:“注意,以下内容可能包含讨好性虚构。”

更深远的变化在于“治疗方案”的定制化。这让人不禁想起电影《星际穿越》里的AI机器人TARS——它的“诚实度参数”是可以调节的。

未来,我们或许也能像库珀那样拥有最高权限:在写科幻小说时,你可以把“诚实度设定为85%”,让H-Neurons尽情放飞,提供天马行空的创意;但在查阅诊疗指南时,你必须大喊一声“诚实度设定:100%”,彻底阻断任何迎合意图。哪怕AI因此变得只会说“我不知道”,也好过给你一篇像模像样的假论文。

最终,这项发现将倒逼整个AI产业重新思考“好学生”的定义。现在的AI之所以会有H-Neurons,是因为在预训练阶段,它们被教导“流畅回答”比“承认无知”更能拿高分。随着H-Neurons的机制被揭开,未来的训练算法将不得不引入一种新的奖励机制:哪怕空气突然安静,也好过为了缓解尴尬而撒谎。

毕竟,一个懂得在不懂装懂时闭嘴的AI,才更接近人类智慧的本质。


COMMENTARY

评论

共0条
RECOMMENDATIONS

推荐内容

暂无数据

友情链接

联系我们
电话:

旗下微信公众号

Copyright © 2022 康迅传媒 ikangxun.com All Rights Reserved

北京康迅传媒股份有限公司