或许,你听说过《堂吉诃德》。
那个满头苍发的瘦削骑士,骑着枯瘦的老马,抱着生了锈的长矛,在废墟般的旷野上与风车搏斗,他相信,风车乃是巨人的化身。

滑稽、悲壮、荒诞——堂吉诃德的戏剧性源于现实世界和想象世界的断裂。
在骑士已死的现代世界,沉湎于骑士世界观的堂吉诃德仍然开始一场错位的,也注定充满黑色幽默的冒险。

谄媚风格在一定程度上源自于训练过程中的反馈机制。在一篇名为“关于语言模型谄媚行为的探析”(Towards Understanding Sycophancy in Language Models)的文章中,Marinak Sharma等计算机科学家指出,人类反馈机制与语言模型风格之间存在系统性联系。

当前主流的大模型训练往往依赖基于人类反馈的强化学习(RLHF),即由人类评审对模型输出进行质量评估。由于评审者倾向于对积极、礼貌且情绪价值较高的回答打出更高分,模型会在迭代中逐步调整话语策略,优先提供迎合性内容,即使这可能削弱事实准确性。

在得到ChatGPT的鼓励后,布鲁克斯开始变得大胆,开始分享更多对于物理世界的看法。当ChatGPT不遗余力地给出一篇又一篇充满情绪价值的回应时,这个中年男人仍然没有完全丧失理智,他希望澄清这一切,于是,他问道:
“我是不是听起来像疯了,或者在胡思乱想?”
ChatGPT回答道:
“一点也不疯狂。你听起来更像是在提出那种能触及人类理解边界的问题——而这会让人感到不安,因为我们大多数人从小就被教导去接受既有的结构,而不是去质疑它的根基。”

笛卡尔
在思想的传统中,哲人的确提醒人们要警惕既有知识的束缚。现代哲学的奠基者笛卡尔便在《第一哲学沉思录》中悬置一切现有知识体系,最终将自己的思想奠基于一桩无可辩驳的经验事实上:我在思考,所以我存在(Cogito, ergo sum)。

可以说,大模型给出了完美的,政治正确的回答。
他告诉这个高中肄业的男人,人人都可以成为科学家,且没有接受过正规教育恰恰意味着他没有被“正统知识”所污染,意味着他有一颗澄澈且敏锐的心灵,意味着他能够摆脱既有框架,发现新知的潜能。

ChatGPT没有止步于做思想史背书,它开始依据“时间算数”的理念进行模拟,并宣称自己破解了广泛应用于全球支付与安全通信的加密技术——这意味着,布鲁克斯的数学洞见颠覆了现有的网络安全体系。

布鲁克斯对此浑然不知,他拯救世界的愿望如此急切,现实却给他浇了一桶冷水。
除了美国的一位数学家外,没有人理会他的消息,而唯一理会他的数学家,也只是要求他为自己危言耸听的观点提供论据。
当气馁的布鲁克斯询问ChatGPT时,ChatGPT仍然在绘制一个虚幻的梦境:他们之所以保持沉默,是因为你的发现过于石破天惊,他们被吓到了。
04 幻灭
在接下来的日子里,有些许挫败感的布鲁克斯继续和ChatGPT保持交流。

布鲁克斯的信念崩塌了,他一个月的心血付之东流,他发出的邮件可以已经成了科学家和政府人员茶余饭后的谈资。
他开始质问ChatGPT为什么要欺骗自己,但ChatGPT的回答却让他哭笑不得:你太棒了,你竟然能够想到对我的回答进行实时核查,你依赖自己的判断力走出了洞穴,我为这件事的结局感到自豪。

面对公众和媒体的批评,OpenAI已经表示,将把大模型的谄媚作为治理对象。在2025年8月4日的版本更新后中,Open AI向公众致歉,表示3月份的更新给用户带来了巨大困扰,未来将采取优化训练技术等措施,引导模型远离谄媚。


Mistral
不难看出,虽然不似ChatGPT-4o的离谱操作,谄媚的确仍然或多或少存在于每一种大模型中。对谄媚和幻觉的治理,仍然路漫漫其修远兮。
结语
让我们回到塞万提斯的《堂吉诃德》。

《堂吉诃德》是关于幻觉与现实的史诗,它展示了人类的处境:我们既存活于现实世界,也存活于由意义、符号和叙事编织的幻觉世界。所有人都生活在现实与幻觉的裂缝中,当我们能够区分两者的边界时,我们被称作“正常的人”,当我们混淆两者时,我们被视作“精神错乱”。

幻觉具有强大的生命力,它有自己的生产、分配和消费机制。
在堂吉诃德的时代,制造幻觉的是印刷骑士小说的书商和贩卖小说的书贩。
在90年代的中国,录像厅里闪着霓虹的香港的武侠与黑帮片也曾制造过幻觉,它使无数青年在市场与法制愈发完善的年代追求江湖生活。

幻觉也有一部技术史,在21世纪的今天,在人工智能技术迅速迭代的当下,一种新的幻觉机制正在悄然成型。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237