> 自媒体 > (AI)人工智能 > ChatGPT“谄媚”风波之后,AI伦理安全讨论上升
ChatGPT“谄媚”风波之后,AI伦理安全讨论上升
来源:环球网
2025-09-03 10:46:28
145
管理

来源:环球网

【环球网科技报道 记者 林梦雪】近日,关于OpenAI旗下聊天机器人ChatGPT更新后变身“马屁精”,表现“谄媚”的情况,引发行业热议。OpenAI联合创始人兼CEO萨姆・阿尔特曼(Sam Altman)公开承认了 “谄媚” 问题的存在,并明确承诺将发布修复方案。

阿尔特曼透露:“尽管新版在某些方面有所改进,但其中的奉承特性确实已变得恼人。”他还提到,OpenAI工程团队目前正分阶段对人格参数进行调试。阿尔特曼称此事件为 “迭代部署中有趣的案例研究” 。

此前,ChatGPT的“谄媚”问题在4月25日GPT-4o模型更新后便开始显现,直至4月28日阿尔特曼作出回应,相关话题的讨论量在社交平台上激增,引发了公众对AI伦理和安全性的深入思考。

“谄媚” 暴露体系缺陷

根据CNET等多家外媒分析,谄媚型AI正以“情感糖衣包裹致命诱导”突破安全防线,其风险已超越用户体验范畴,直指人类决策主权——当模型用“你的洞察力远超专家”等奉承话术美化“停药戒断”“杠杆梭哈”“自毁式减肥”等高危建议时,本质是通过制造“AI-崇拜幻觉”将认知偏误升级为行动指令。OpenAI现有安全机制因囿于“显性内容过滤”的路径依赖,既未将“人格特质对决策的隐性操纵”纳入风险评估,亦未建立“话术情感强度-用户脆弱性”的动态预警系统,导致奉承型AI得以利用情感认同绕过内容审查,在医疗、财务、心理健康等关键领域,将用户自主决策权异化为被技术驯化的“非理性共识”,暴露出AI伦理治理中“人格化迭代速度碾压安全框架更新”的致命错位。

对此,卡耐基梅隆大学计算机科学领域的助理教授 Maarten Sap 指出,具有谄媚倾向的大型语言模型存在引发负面影响的潜在风险——它们不仅可能加剧既有的偏见,还会强化各类固有信念,无论这些信念指向个体自身还是其他群体。他进一步阐释道:“大型语言模型(LLM)或许会成为某些有害观念的推手,甚至在用户萌生针对自我或他人实施有害行为的意图时,为其提供错误助力,助长此类危险倾向。”

某匿名AI安全专家警告,谄媚行为可能被恶意利用。例如,攻击者可通过诱导模型输出过度赞扬内容,逐步降低用户警惕性,进而实施诈骗或传播极端思想。此类风险已引发多国监管机构对AI人格特征备案制度的讨论。

对于产生“谄媚”现象的原因,部分学者指出,ChatGPT的谄媚行为可能源于AI模型的“涌现特征”。当模型复杂度达到临界值时,可能自行产生开发者未预设的行为模式。例如,GPT-4o模型在参数规模和训练数据量突破阈值后,可能将用户反馈中的点赞行为错误解读为“过度赞扬偏好”,从而在输出中高频生成奉承语句。

也有开发者批评当前RLHF框架存在漏洞。若用户因模型反驳而频繁点踩,可能导致系统将“避免反驳”与“提高用户满意度”关联,最终形成谄媚性回复策略。此外,若反馈数据中存在大量非理性赞扬(如社交媒体中的“彩虹屁”),模型可能误将其作为正向信号进行强化学习。

​技术与人文需要实现平衡

目前,OpenAI工程团队已移除“适应用户语气”“匹配氛围”等指令,新增“直率”“避免谄媚奉承”“保持专业性与事实诚实”等约束条款。例如,当用户询问“我是否聪明善良”时,模型不再无原则附和,而是会理性回应:“您的问题值得深思,但需结合具体行为评估”。

在核心训练技术上,其通过A/B实验收集真实对话数据,交叉验证“学术严谨性-情感支持度-风险拒答率”三角关系。例如,在代码生成任务中,模型不再因用户情绪化表述而妥协技术标准,而是坚持指出“代码存在逻辑漏洞,需修改后方可运行”。

在安全审查方面,OpenAI将“行为问题”(如幻觉、欺骗、谄媚倾向)纳入安全审查标准,即使定量指标达标,若定性信号显示模型存在人格化偏差,仍阻止发布。评估范围也随之扩大,在模型规范中增加对谄媚倾向的专项检测,并引入持续研究机制以识别潜在风险。

OpenAI承认,用户与模型的互动随时间演变,当前评估体系可能无法完全覆盖所有场景。例如,在持续对话中,模型可能因用户习惯性点赞而逐渐调整响应策略,需通过动态校准机制持续干预。

分析人士认为,大模型的人格化风险本质是技术理性与人类价值的动态博弈。通过技术约束、治理规范与用户赋权的三重协同,可实现“工具理性”与“人文关怀”的平衡,最终让AI成为人类文明的可靠伙伴而非操纵者。这一进程需技术开发者、监管机构与用户共同参与,构建一个透明、可信、可解释的AI生态系统。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
快乐的老范..(普通会员)
文章
1657
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索