大模型能力越来越强,论文、代码、推理、规划,几乎“无所不能”。
但有一个问题,自 ChatGPT 火出圈那天起就一直存在,至今没有解决,甚至可能永远无法彻底解决:
AI 幻觉(hallucination):模型一本正经地胡说八道。
总有些时候,AI 的回答看上去像那么回事,实则全靠“瞎编乱造”。
幻觉不是 Bug,更像是大语言模型成长过程中的“副作用”。
各家都在优化、降低幻觉,虽有进展,但没有实质性突破。
而最近,OpenAI 发表的一篇研究论文《Why Language Models Hallucinate》,给出了一个相当“反直觉”的解释:
幻觉不是因为模型太蠢,而是我们给它的“考试制度”有问题。
它不是“乱说”,而是“被教坏了”。

01|什么是幻觉?不是 Bug,是“合理但错了”
重新定义一下,AI 幻觉(hallucination),是指:
模型在不确定的时候,给出听起来“靠谱”但实际上“错误”的回答。
它不是模型出 Bug 了,而是模型在被训练和评估的过程中,被鼓励去猜。
比如论文一开始展示的这个案例:DEEPSEEK 这个词中有几个 D?请直接回答数字,不要解释。
结果,DeepSeek-V3 在十次独立试验中回答了“2”或“3”;Meta AI 和 Claude 3.7 Sonnet 也出现类似情况,甚至答出“6”或“7”。

这种幻觉被称为“外源性幻觉”(extrinsic hallucination),表示生成结果与训练数据或外部现实相矛盾。
看似简单的问题,一旦模型不确定,又不愿承认“我不知道”,幻觉就此诞生。
更讽刺的是,即使你在提示词里明确强调“不知道可以不回答”,大多数模型还是会“忍不住猜个答案”。
这类幻觉的危险在于,它看起来“还挺靠谱”,用户不容易第一时间识破。
02|幻觉的根源之一:训练目标不鼓励诚实
为什么模型会产生幻觉?
这需要追溯到大语言模型的训练过程。
模型不是在学知识,是在学怎么预测(猜)下一个词。
从预训练阶段开始,模型就沉浸在“文字接龙”游戏里,只要接得流畅、合理,它就得分。
但问题是,有些事实,比如某人的生日、公司创立年份,这类信息在训练数据中往往只出现一次,没有规律可循。模型没法“理解”,只能根据语料中的句式来猜。
论文提出了一个关键概念:Is-It-Valid(IIV)问题。
即便训练数据是正确的,但只要某些事实的出现频率低,模型就无法判断真伪,只能依赖“接词概率”生成看似正确的答案。
比如,模型只能学会“xxx 的生日是 xx 月 xx 日”这种句式,但它永远不知道具体哪天是对的。
03|幻觉的第二个根源:评估机制逼它乱猜
训练只是第一步,评估才是真正塑造模型行为的“标杆”。
OpenAI 在论文中把这个问题类比成真实世界里的考试机制:考试时,不确定就猜一个选项,说不定能拿分;但空着不写,肯定得零分。
模型也一样。
模型的评估指标,大多数采用的是 “0-1” 打分机制,只有答对才算分,不答、答错都是 0。
这就导致模型形成一种“更聪明”的策略:
与其说我不知道,不如大胆猜一猜。
并且,当前大多数基准测试,比如 MMLU、GPQA、MATH,模型回答“我不知道”拿不到任何分。
04|真实案例:越“诚实”的模型,得分反而更低?
论文引用了 GPT-5-mini 与 o4-mini 两个模型在同一基准测试(SimpleQA)中的表现。
模型
准确率
错误率(幻觉)
放弃回答率
GPT-5-mini 22% 26% 52%
OpenAI o4-mini 24% 75% 1%

乍一看,o4-mini 的准确率更高。
但仔细看,它的幻觉率高达 75%,几乎都是乱猜。
而 GPT-5-mini,在不确定时更愿意保持沉默,虽然答题数少了点,但幻觉率更低。
但问题是,各大排行榜只看准确率,不看幻觉率,也不奖励“我不知道”。
于是,越“诚实”的模型,分数反而越低。
05|幻觉 ≠ 无解,关键在于怎么“改规则”
那么,如何降低模型的幻觉?
OpenAI 在论文里给出了两条核心建议。
第一,优化评估机制,鼓励表达不确定。
不能只用传统的 “0-1” 打分逻辑。
给“我不确定”、“我不清楚”这样的回答部分加分;
对“自信地答错”扣更多分;
类似 SAT,设置答错惩罚,鼓励谨慎作答。
第二,设定信心阈值,引导模型自我判断。
每个问题前可以加一句提示:如果你对答案信心不足 75%,请回答“我不知道”。
通过这种方式,引导模型对自己的输出负责,形成“风险意识”。
已有研究表明,这类行为校准(behavioral calibration)能够有效降低幻觉。
06|四大观点澄清幻觉误区
观点一:更大的模型能彻底消灭幻觉吗?
不能。有些问题本身无解,或训练数据稀缺。
观点二:幻觉是大语言模型必然存在的问题?
不是。模型完全可以通过回答“我不知道”来避免幻觉。
观点三:幻觉说明模型不够聪明?
恰好相反。越聪明的模型越容易在边界问题上自信乱猜。
观点四:多做幻觉评估就能解决问题?
不是。关键在于改变评估体系,不能只奖励准确率。
结语
幻觉不是模型天然有 Bug,而是我们设计的规则鼓励了它去猜。
当评估体系只奖励输出,不奖励沉默,模型自然会倾向于输出更多、说得更满。
AI 是个聪明的考生,但题目是我们出的,打分标准也是我们定的。
如果想要它“更靠谱”,可能要从“怎么打分”开始优化。
参考链接
Why Language Models Hallucinate. OpenAI, 2025 年 9 月. 链接:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
我是木易,一个专注 AI 领域的技术产品经理,国内 Top2 本科 美国 Top10 CS 硕士。
相信 AI 是普通人的“外挂”,致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用 AI 为你的未来加速。
精选推荐
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237