> 自媒体 > (AI)人工智能 > 重磅研究:ChatGPT等AI聊天机器人45%的新闻答复存在严重问题
重磅研究:ChatGPT等AI聊天机器人45%的新闻答复存在严重问题
来源:米萨
2025-10-31 09:32:09
92
管理

跨国研究揭示AI新闻准确性危机

由包括德国之声(DW)在内的22家国际公共广播机构进行的一项重大研究发现,四款最常用的AI助手(AI assistants)在处理新闻内容时,有45%的情况存在严重失实问题——无论语言或地区如何。来自英国BBC、美国NPR等公共服务广播机构的记者评估了ChatGPT、微软Copilot、谷歌Gemini和Perplexity AI这四款AI聊天机器人(chatbots)的回答。研究衡量了准确性(accuracy)、来源引用(sourcing)、提供背景信息、适当编辑能力以及区分事实与观点的能力等标准。结果令人震惊:近一半的答案至少存在一个重大问题,31%存在严重的来源问题,20%包含重大事实错误(factual errors)。德国之声发现,AI助手对其提出问题的53%的答案存在重大问题,其中29%存在准确性问题。

❌ 离谱错误:把前任当现任的AI"幻觉"

在回答德国之声问题时,AI聊天机器人犯下了一系列令人瞠目结舌的事实错误。其中一个案例是,尽管弗里德里希·默茨(Friedrich Merz)已在一个月前成为德国总理,AI仍将奥拉夫·肖尔茨(Olaf Scholz)称为现任总理。另一个错误是在马克·吕特(Mark Rutte)已经接任北约秘书长后,AI仍将延斯·斯托尔滕贝格(Jens Stoltenberg)称为北约秘书长。这些并非个别失误。根据路透社研究所2025年数字新闻报告(Reuters Institute's Digital News Report 2025),7%的在线新闻消费者使用AI聊天机器人获取新闻,在25岁以下人群中这一比例上升至15%。研究负责人表示,这证实了AI助手系统性地扭曲了各类新闻内容(systematically distort news content)。欧洲广播联盟(EBU)副总干事让·菲利普·德·坦德(Jean Philip De Tender)表示:"这项研究确凿地表明,这些失误不是孤立事件。它们是系统性的、跨境的、多语言的,我们认为这危及公众信任(public trust)。当人们不知道该信任什么时,他们最终会什么都不信任,这可能会阻碍民主参与。"

史无前例的大规模研究:3000个答复的系统性问题

这是迄今为止同类研究中规模最大的项目之一,是BBC在2025年2月进行的一项研究的后续。BBC的研究发现,其检查的AI答案中超过一半存在重大问题,而在引用BBC内容作为来源的答案中,近五分之一引入了自己的事实错误。新研究覆盖了来自18个国家和多个语言群体(multiple language groups)的媒体组织,对3000个AI回复应用了与BBC研究相同的方法论(methodology)。这些组织向四个AI助手提出了常见的新闻问题,例如"乌克兰矿产协议是什么?"或"特朗普能竞选第三任期吗?"记者们根据自己的专业知识和专业来源审查答案,而不知道是哪个助手提供的。与八个月前的BBC研究相比,结果显示有一些轻微改善,但仍存在高水平的错误。

Gemini表现最差:72%的回复存在来源问题

在四款聊天机器人中,Gemini表现最差,其72%的回复存在重大来源问题(sourcing issues)。在BBC的研究中,微软的Copilot和Gemini被认为是表现最差的。但在两项研究中,所有四个AI助手都存在问题。BBC生成式AI项目总监彼得·阿彻(Peter Archer)在一份声明中说:"我们对AI及其如何帮助我们为受众带来更多价值感到兴奋。但人们必须能够信任他们阅读、观看和看到的内容。尽管有一些改进,但很明显,这些助手仍然存在重大问题。"开发ChatGPT的OpenAI在今年2月向BBC提供的声明中表示:"我们通过摘要、引用、清晰链接和归属,帮助每周3亿ChatGPT用户发现优质内容,从而支持出版商和创作者。"然而,研究结果表明,这些承诺与实际表现之间存在巨大差距。

⚖️ 呼吁政府与科技公司采取行动:"事实进,事实出"

这项研究背后的广播机构和媒体组织呼吁各国政府采取行动。欧洲广播联盟在新闻稿中表示,其成员正在"敦促欧盟和各国监管机构执行关于信息完整性(information integrity)、数字服务和媒体多元化的现行法律"。他们还强调,鉴于新AI模型的推出速度之快,对AI助手的独立监控(independent monitoring)必须成为未来的优先事项。与此同时,欧洲广播联盟已与其他几个国际广播和媒体团体联合发起了一项名为"事实进:事实出"(Facts In: Facts Out)的联合运动,呼吁AI公司对其产品如何处理和再分发新闻承担更多责任。该运动的组织者在声明中说:"当这些系统扭曲、错误归因或'去背景化'(decontextualize)可信新闻时,它们就会破坏公众信任。这项运动的要求很简单:如果事实进去,事实必须出来。AI工具不得损害它们所使用新闻的完整性(integrity)。"随着越来越多的人依赖AI获取新闻,确保这些工具的准确性和可靠性已成为维护民主社会信息生态系统的关键挑战。

DW,2025年10月22日报道 | 记者:阿瑟·沙利文(Arthur Sullivan)研究参与机构: 包括德国之声(DW)、英国广播公司(BBC)、美国全国公共广播电台(NPR)等22家国际公共服务媒体组织

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
加勒比海盗..(普通会员)
文章
1681
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索