> 自媒体 > (AI)人工智能 > 大模型三巨头比拼幻觉,Deepseek 最重,ChatGPT o3 - mini 最优
大模型三巨头比拼幻觉,Deepseek 最重,ChatGPT o3 - mini 最优
来源:人工智能学家
2025-03-24 11:08:41
364
管理

近日,智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了一系列引人注目的对照实验,旨在深入探究 Gemini 2.0 Flash、ChatGPT o3 - mini 和 DeepSeek R1 这三款全球顶尖大模型在应对幻觉问题上的性能差异。实验结果表明,在这场大模型三巨头的幻觉比拼中,ChatGPT o3 - mini 展现出了明显优势,而 DeepSeek R1 则在推理过程中表现出了较重的 “负担”。

随着大模型技术的不断发展,其在各个领域的应用日益广泛,但幻觉问题却一直是困扰该技术发展的一大难题。幻觉问题指的是模型生成的内容与现实世界事实或用户输入不一致的现象,可分为事实性幻觉和忠实性幻觉两大类。为了评估当前主流大模型在应对幻觉问题上的能力,Roberto Araya 研究员设计了 4 组对照实验,通过让这三款模型对相同的提示词进行推理分析,来研究它们在解决贝叶斯推理问题时的表现,进而对比其应对幻觉问题的性能。

实验过程与结果

研究团队精心设计了一个适合小学生兴趣与认知水平的贝叶斯推理问题,以谎言检测为主题,构建了一个包含多个对象的乡村风景场景,其中涉及猫、猪等动物关于卡片位置的描述等核心线索,要求模型依据这些线索判断卡片最可能隐藏在哪本书中。在四个实验中,研究人员分别设置了不同的条件,从无提示到逐步增加引导提示,观察模型在不同条件下能否自主使用或正确使用自然频率、整体对象、具身启发式等生态策略来解决问题。

ChatGPT o3 - mini:表现最优:在整个实验过程中,ChatGPT o3 - mini 展现出了卓越的性能。在提示条件下,它表现最为稳定,能够灵活切换推理方法,并正确使用自然频率进行推理。例如,在增加引导提示建议使用 “自然频率” 策略的实验中,它成功地将概率转换为自然频率,通过贝叶斯公式得出正确结论后,还用自然频率再次验证,且在后续实验中,无论是增加用塑料块表示案例还是要求用适合 12 岁学生的教学方式描述推理过程等条件,它都能准确应对,得出正确结论,其推理过程也相对简洁。

DeepSeek R1:推理过程冗长混乱:DeepSeek R1 虽然在部分实验中最终也能得出正确结论,但其表现令人担忧。它的推理过程极为复杂冗长,用词量极大,在不同实验中分别用了 2876、7344、5504 和 8457 个词不等,且过程中充满了犹豫和反思,多次进行自我检查和调整,在使用自然频率等策略时也不够熟练,频繁在自然频率和百分比之间切换,表现出对生态有效策略的抗拒。

Gemini 2.0 Flash:存在推理错误:Gemini 2.0 Flash 的思维链用词最少,但其推理过程中策略使用方法与推理结论效果不是最佳。在实验中,它虽然能够尝试使用各种策略,但推理过程存在错误,经常依赖百分比进行部分计算,导致推理逻辑不一致,即使在结论正确的情况下,论证过程也往往存在问题。

从实验结果来看,ChatGPT o3 - mini 在应对大模型幻觉问题上确实占有绝对优势,这得益于其能够灵活运用各种策略进行思考推理,准确地将概率转换为自然频率等,从而得出正确结论。而 DeepSeek R1 虽然也具备一定的推理能力,但过于冗长和混乱的推理过程不仅增加了算力成本,还反映出其在策略运用和逻辑整合上的不足,这可能导致其在面对复杂问题时更容易产生幻觉。Gemini 2.0 Flash 尽管用词简洁,但推理过程中的错误表明它在理解和运用策略方面存在缺陷,这也影响了其在应对幻觉问题上的表现。

此外,实验还发现,所有模型在无提示条件下的表现都不稳定,这说明当前的大模型技术在自主运用有效策略解决问题方面还存在较大的提升空间。同时,这三款模型作为当前全球综合能力最强的基础模型,它们在问题思考与推理上的不足也清晰地表明,大模型技术距离实现 AGI(通用人工智能)的终点还有很长的路要走。

大模型幻觉问题的根源与解决策略

大模型产生幻觉的原因主要源于数据源、训练过程和推理过程等多个方面。训练数据中的错误信息、偏见以及不完整的知识,数据分布不均匀或质量不高导致模型学习到不准确的模式和规律,还有模型在生成内容时基于学习模式的 “想象” 或 “创造”,都可能引发幻觉。

为了减少幻觉问题,研究人员提出了多种策略,包括提升训练数据的质量和多样性,引入先验知识和常识,增加模型的鲁棒性,优化模型架构和算法,以及结合人类评估和反馈等。这些策略旨在从多个角度改善模型的性能,提高其对现实世界的理解和对用户需求的准确把握,从而降低幻觉出现的概率。

此次实验结果为大模型的研究和发展提供了重要的参考依据。对于开发者来说,需要进一步优化模型的训练和推理机制,提高模型在各种条件下的稳定性和准确性,尤其是要注重提升模型自主运用有效策略解决问题的能力,以更好地应对幻觉问题,推动大模型技术向 AGI 的目标不断迈进。同时,这也提醒我们,在享受大模型带来的便利和创新的同时,要对其存在的问题保持清醒的认识,谨慎对待模型生成的内容,避免因幻觉而产生错误的决策或认知。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
经典好看视频..(普通会员)
文章
1614
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索