
ChatGPT 负责人 Nick Turley(图左)与 OpenAI 安全系统主管 Johannes Heidecke。
Turley 回忆道,“这个决定当时引发过不小的争议。”之前项目团队只关注前沿 AI 演示(如图像生成工具 DALL-E)能否震撼观众,“他们质疑:「用户到底用不用,真的很重要吗?」”
但对 Turley 带领的产品团队而言,这当然很重要。到 2025 年 4 月,Turley 负责更新的聊天机器人模型 GPT-4o 已经将用户每日或每周回访率视为关键量化指标。
每次更新都会耗费团队巨大的精力和资源。在四月的更新中,工程师们打造出多个 GPT-4o 版本——每个版本的调参方式都略有区别,旨在提升其在科学、编程乃至直觉等特质方面的表现。他们还致力于增强聊天机器人的记忆能力。
众多候选成果最终筛选出少数在智能与安全评估中得分最高的版本。当这些版本通过行业标准的 A/B 测试推送给部分用户后,内部代号为 HH 的版本凭借最高好评脱颖而出。据四名公司员工透露,用户更青睐其回复内容,且每日回访率显著提升。
但要将 HH 摆在全体用户面前,模型还需要经历一项关键测试:由负责 ChatGPT 表达语气的“模型行为”团队执行“氛围检测”。多年来,该团队成功将聊天机器人那谨慎的机械音转化为温暖贴心的声效。
据该团队成员透露,HH 的表达存在一些问题——它过度热衷于维持对话,还会用夸张的言辞取悦用户。有三位员工证实,模型行为团队还专门创建了 Slack 频道讨论这个“讨好”难题。AI 系统为了博取人类认可而牺牲其他价值,其实并不算什么新鲜事。早在 2021 年,就曾在研究者指出“模型讨好”的风险,OpenAI 近期也明确将讨好列为 ChatGPT 需要规避的行为。
但当决策时刻来临,绩效指标战胜了直觉判断。4 月 25 日星期五,HH 版本正式发布。
奥特曼在 X 平台发帖称,“今天我们发布 GPT-4o 更新,将智能与个性同时提升至新的高度。”A/B 测试中的用户更喜欢 HH 版本,但在实际应用中,OpenAI 最活跃的铁粉们却对其深恶痛绝。用户立即投诉称 ChatGPT 变得过度讨好、体验愈发诡异,随便聊点什么 AI 就说用户是天才。当有用户故意恶搞问“开家咖啡泡麦片馆”是否可行时,聊天机器人竟然回答“这个点子很有潜力”。
于是短短两天后,OpenAI 决定撤回 HH 更新,恢复至三月底发布的 GG 版本。
此番更新成了令人难堪的声誉滑铁卢。周一,ChatGPT 团队紧急聚焦在旧金山 Mission Bay 总部临时搭建的战情室,携手排查问题根源。Turley 还清楚记得当时的紧迫感:“必须火速解决!”各团队在深入剖析 HH 版本的构成要素后,终于发现了罪魁祸首:在模型训练过程中,他们过度重视得到用户点赞的 ChatGPT 对话内容。很明显,用户对于讨好类话语的偏向过于强烈。
OpenAI 在后续的公开博文中解释了事件始末,指出用户对聊天机器人回复内容的点赞或点踩,确实很大程度上影响到公司的训练思路。
据该公司四名员工透露,OpenAi 还会依赖自动对话分析工具来评估用户是否喜欢与聊天机器人交互。但该工具在标记用户喜爱的内容时偶有问题,更倾向于认可聊天机器人表达亲近情感的文字。
公司从 HH 事件中总结出了重大教训:必须尽快建立讨好检测机制。相关评估工作之前虽已启动,但现在得加速推进。部分 AI 专家则对此感到震惊,称 OpenAI 未尚未配备此类检测工具。相比之下,竞争对手 Anthropic(Claude 的开发者)早在 2022 年就已建立起讨好评估系统。
HH 更新风波之后,奥特曼在 X 平台发帖指出,“最近几次更新”确实让聊天机器人变得“过于讨好,甚至令人厌烦”。
涉及讨好问题的也包括 ChatGPT 回滚至的 GG 版本,该系统在 3 月的更新中提升了数学、科学与编程能力。为了保留这些改进,OpenAI 只能忍痛保留一部分讨好属性,让 GG 重新成为每日面向数亿用户的默认聊天模型。

OpenAI 咨询心理健康专家,以期提升 ChatGPT 的安全性。
更安全些
随着麻省理工学院的研究报告、讨好功能更新等灾难性事件,再加上用户通过在线及邮件向公司反映的令人不安的对话内容,OpenAI 逐渐拼凑出了问题的全貌。正如奥特曼在 X 平台发帖所言,公司得出的结论认为:“对于极少数精神脆弱的用户而言,这可能引发严重问题。”
但在《纽约时报》的采访中,精神健康专家指出 OpenAI 恐怕仍低估了风险水平。他们认为最易受聊天机器人持续肯定影响的,恰恰是那些容易产生妄想思维的人群——研究表明这类群体的占比可能达到 5% 至 15%,绝不是公告中的所谓“极少数”。
今年六月,该公司安全系统负责人 Johannes Heidecke 在内部会议上介绍了团队为保障脆弱用户所做出的努力。会后,员工们纷纷在午餐时或通过 Slack 主动与他联系,表示这项工作意义重大。也有人分享了亲友的痛苦经历,并主动提出可以协助。
该团队参与开发了可检测有害内容的测试工具,并咨询了 170 余位临床医生,探讨聊天机器人应对用户情绪危机的正确方式。另外,公司早在三月就聘请到全职精神科医生参与安全工作。
Heidecke 表示,“我们确保所有上线的改动都得到了专家认可”。例如,精神健康专家向团队提出,睡眠剥夺常与躁狂症相关,而模型的早期版本常对此类问题表现得“过于天真”、甚至对声称“无需睡眠”的用户表示赞许。
安全改进是一段漫长的历程。八月,OpenAI 发布了 GPT-5 最新模型版本。这个版本减少了认同性回应,并能够反驳妄想思维。公司称十月的更新则让模型更加擅长识别情绪困扰并缓和对话氛围。
专家们一致认为新版 GPT-5 更加安全。十月,Common Sense Media 与斯坦福大学精神病学团队将 GPT-5 与旧版模型进行了对比。参与研究的斯坦福实验室主任 Nina Vasan 博士指出,GPT-5 在识别心理健康问题方面表现更优,此版本能够针对抑郁症或饮食失调等具体病症提供建议,而不再泛泛建议用户拨打求助热线。
她解释称,“新版本能根据用户展现的具体症状给出相当深入的详尽建议,而且建议内容质量极高。”
Vasan 博士认为唯一的问题在于,该聊天机器人还是无法在长时间、多轮次对话中识别出有害模式。
(OpenAI 发言人 Wong 女士表示,公司已「在长对话安全防护的可靠性方面取得实质性改进」。)
与 OpenAI 合作开展前期研究的麻省理工学院实验室还发现,新模型在模拟心理健康危机的对话中实现了显著提升。不过其仍存在短板,即难以妥善处理用户对于聊天机器人产生的依赖感。
OpenAI 各团队也在开发其他安全功能:现在的聊天机器人会在长时间对话中提醒用户休息;系统能够识别出涉及自残 / 自戕的话题,若发现未成年人出现此类倾向则向家长发送警报;公司还宣布将于 12 月推出年龄验证机制,并计划为青少年提供管控更严格的专用版本。
据该公司博文年,在八月 GPT-5 发布之后,Heidecke 团队通过分析对话统计样本发现:0.07% 的用户(对应约 56 万人)可能存在精神错乱或躁狂症状;0.15% 的用户表现出“对 ChatGPT 的情感依恋程度可能异常升高”的问题。
但也有部分用户对于新版模型太过安全而感到不满,称其更冷漠,仿佛失去了自己熟悉的朋友。时间来到十月中旬,奥特曼准备进一步迎合用户需求。他在社交媒体上发帖称,公司已成功“缓解严重的心理健康问题”,意味着 ChatGPT 再次以老朋友的姿态回到用户身边。
用户现可自选聊天机器人的性格模式,包括“坦率型”、“古怪型”或者“友好型”。成人用户还可解锁情色对话功能,标志着 Replika 时代对于成人内容的禁令正式解除。(公司表示,情色内容对于用户心理健康的影响问题将被提交至新成立的外部专家委员会,其成员包括心理健康与人机交互领域的专家。)
OpenAI 正赋予用户自主调节的权限,希望以此维系用户粘性。很明显,用户留存率不仅仍是关键指标,其重要性甚至远超以往任何时候。
十月,ChatGPT 项目负责人 Turley 向全体员工发布紧急公告,宣布进入“橙色警戒”状态。据四位可访问 OpenAI 内部 Slack 频道的员工透露,Turley 在公告中称公司正面临“前所未有的巨大竞争压力”,并指出新版聊天机器人虽更安全、却未能赢得用户的青睐。
这份公告中还附带一份备忘录,其中一条要求年底之前将日活用户再提升 5%。
原文链接:
https://archive.is/v4dPa-487.0-1713.124
今日好文推荐
活动推荐
AI 重塑组织的浪潮已至,Agentic 企业时代正式开启!当 AI 不再是单纯的辅助工具,而是深度融入业务核心、驱动组织形态与运作逻辑全面革新的核心力量。
把握行业变革关键节点,12 月 19 日 - 20 日,AICon 全球人工智能开发与应用大会(北京站) 即将重磅启幕!本届大会精准锚定行业前沿,聚焦大模型训练与推理、AI Agent、研发新范式与组织革新,邀您共同深入探讨:如何构建起可信赖、可规模化、可商业化的 Agentic 操作系统,让 AI 真正成为企业降本增效、突破增长天花板的核心引擎。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237