大模型三巨头比拼幻觉，Deepseek 最重，ChatGPT o3

> 自媒体 > （AI）人工智能 > 大模型三巨头比拼幻觉，Deepseek 最重，ChatGPT o3 - mini 最优

大模型三巨头比拼幻觉，Deepseek 最重，ChatGPT o3 - mini 最优

来源：人工智能学家

2025-03-24 11:08:41

364

管理

近日，智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了一系列引人注目的对照实验，旨在深入探究 Gemini 2.0 Flash、ChatGPT o3 - mini 和 DeepSeek R1 这三款全球顶尖大模型在应对幻觉问题上的性能差异。实验结果表明，在这场大模型三巨头的幻觉比拼中，ChatGPT o3 - mini 展现出了明显优势，而 DeepSeek R1 则在推理过程中表现出了较重的 “负担”。

随着大模型技术的不断发展，其在各个领域的应用日益广泛，但幻觉问题却一直是困扰该技术发展的一大难题。幻觉问题指的是模型生成的内容与现实世界事实或用户输入不一致的现象，可分为事实性幻觉和忠实性幻觉两大类。为了评估当前主流大模型在应对幻觉问题上的能力，Roberto Araya 研究员设计了 4 组对照实验，通过让这三款模型对相同的提示词进行推理分析，来研究它们在解决贝叶斯推理问题时的表现，进而对比其应对幻觉问题的性能。

实验过程与结果

研究团队精心设计了一个适合小学生兴趣与认知水平的贝叶斯推理问题，以谎言检测为主题，构建了一个包含多个对象的乡村风景场景，其中涉及猫、猪等动物关于卡片位置的描述等核心线索，要求模型依据这些线索判断卡片最可能隐藏在哪本书中。在四个实验中，研究人员分别设置了不同的条件，从无提示到逐步增加引导提示，观察模型在不同条件下能否自主使用或正确使用自然频率、整体对象、具身启发式等生态策略来解决问题。

ChatGPT o3 - mini：表现最优：在整个实验过程中，ChatGPT o3 - mini 展现出了卓越的性能。在提示条件下，它表现最为稳定，能够灵活切换推理方法，并正确使用自然频率进行推理。例如，在增加引导提示建议使用 “自然频率” 策略的实验中，它成功地将概率转换为自然频率，通过贝叶斯公式得出正确结论后，还用自然频率再次验证，且在后续实验中，无论是增加用塑料块表示案例还是要求用适合 12 岁学生的教学方式描述推理过程等条件，它都能准确应对，得出正确结论，其推理过程也相对简洁。

DeepSeek R1：推理过程冗长混乱：DeepSeek R1 虽然在部分实验中最终也能得出正确结论，但其表现令人担忧。它的推理过程极为复杂冗长，用词量极大，在不同实验中分别用了 2876、7344、5504 和 8457 个词不等，且过程中充满了犹豫和反思，多次进行自我检查和调整，在使用自然频率等策略时也不够熟练，频繁在自然频率和百分比之间切换，表现出对生态有效策略的抗拒。

Gemini 2.0 Flash：存在推理错误：Gemini 2.0 Flash 的思维链用词最少，但其推理过程中策略使用方法与推理结论效果不是最佳。在实验中，它虽然能够尝试使用各种策略，但推理过程存在错误，经常依赖百分比进行部分计算，导致推理逻辑不一致，即使在结论正确的情况下，论证过程也往往存在问题。

从实验结果来看，ChatGPT o3 - mini 在应对大模型幻觉问题上确实占有绝对优势，这得益于其能够灵活运用各种策略进行思考推理，准确地将概率转换为自然频率等，从而得出正确结论。而 DeepSeek R1 虽然也具备一定的推理能力，但过于冗长和混乱的推理过程不仅增加了算力成本，还反映出其在策略运用和逻辑整合上的不足，这可能导致其在面对复杂问题时更容易产生幻觉。Gemini 2.0 Flash 尽管用词简洁，但推理过程中的错误表明它在理解和运用策略方面存在缺陷，这也影响了其在应对幻觉问题上的表现。

此外，实验还发现，所有模型在无提示条件下的表现都不稳定，这说明当前的大模型技术在自主运用有效策略解决问题方面还存在较大的提升空间。同时，这三款模型作为当前全球综合能力最强的基础模型，它们在问题思考与推理上的不足也清晰地表明，大模型技术距离实现 AGI（通用人工智能）的终点还有很长的路要走。

大模型幻觉问题的根源与解决策略

大模型产生幻觉的原因主要源于数据源、训练过程和推理过程等多个方面。训练数据中的错误信息、偏见以及不完整的知识，数据分布不均匀或质量不高导致模型学习到不准确的模式和规律，还有模型在生成内容时基于学习模式的 “想象” 或 “创造”，都可能引发幻觉。

为了减少幻觉问题，研究人员提出了多种策略，包括提升训练数据的质量和多样性，引入先验知识和常识，增加模型的鲁棒性，优化模型架构和算法，以及结合人类评估和反馈等。这些策略旨在从多个角度改善模型的性能，提高其对现实世界的理解和对用户需求的准确把握，从而降低幻觉出现的概率。

此次实验结果为大模型的研究和发展提供了重要的参考依据。对于开发者来说，需要进一步优化模型的训练和推理机制，提高模型在各种条件下的稳定性和准确性，尤其是要注重提升模型自主运用有效策略解决问题的能力，以更好地应对幻觉问题，推动大模型技术向 AGI 的目标不断迈进。同时，这也提醒我们，在享受大模型带来的便利和创新的同时，要对其存在的问题保持清醒的认识，谨慎对待模型生成的内容，避免因幻觉而产生错误的决策或认知。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

18天前