LLM(大语言模型)的“幻觉”本质原因
LLM(大语言模型)的“幻觉”(生成与事实不符但模型自信输出的内容)本质上是其作为概率统计模型的底层机制与训练、推理过程中多重限制共同作用的结果。从模型内部逻辑、训练机制到推理环节
一、底层机制:基于“统计关联”而非“真实理解”
LLM的核心功能是预测“下一个token(词/字)的概率分布”,其决策完全依赖于训练数据中学习到的“token序列关联规律”,而非对客观世界的“真实理解”或“逻辑建模”。
- 例如,模型学到“爱因斯坦”和“相对论”高频共现,“爱迪生”和“电灯”高频共现,但它并不“知道”这两个名字对应的人物与发明的因果关系或事实本质。当输入中出现模糊提示(如“科学家发明了电灯”),模型可能因“科学家”与“爱因斯坦”的高关联度(而非事实),错误输出“爱因斯坦发明了电灯”。
- 这种“统计关联优先”的机制,使得模型在面对训练数据中“弱关联但错误”的模式时,可能将其误判为“高概率正确”,从而生成幻觉。
二、训练数据的固有缺陷
训练数据是模型“知识”的唯一来源,其质量直接决定模型输出的可靠性,而数据的以下问题是幻觉的重要诱因:
-
数据中存在错误、噪声或偏见
互联网爬取的训练数据(如论坛帖子、非权威博客、过时文档