> 自媒体 > (AI)人工智能 > OpenAI Open了下:发布可解释性新研究,作者来自Ilya超级对齐团队
OpenAI Open了下:发布可解释性新研究,作者来自Ilya超级对齐团队
来源:量子位
2025-12-02 18:55:03
175
管理

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

刚小步快跑了一波GPT 5.1,主打让大模型说人话,OpenAI又在可解释性上做文章了。

真的是paper的那种。

简单来说,在这项研究中,OpenAI研究员们的核心思路是:训练神经元连接少、但神经元数量多的稀疏模型,让神经网络变得简单,也更容易理解。

如果你对模型可解释性感兴趣,这篇论文值得一读。

而对于OpenAI的难得open,还有不少网友关心:那么新的小模型系列要来了吗?

通过稀疏模型理解神经网络

来看具体研究内容。

OpenAI研究员们认为,推理模型通过思维链展现出的可解释性在短期内非常有价值,能让我们捕捉到模型的“欺骗”等行为。但完全依赖这一特性显然不太可靠,随着时间的推移,这种策略也可能会失效。

想要更本质地理解模型机制,还是需要对模型的计算过程进行完全逆向工程。

问题在于,从复杂密集网络入手,难度非常大:每个神经元都与其他数千个神经元相连,不同的神经元又执行着许多不同的功能,这让理解它们看上去几乎不可能。

那么,能否训练一个拥有很多神经元,但每个神经元只有几十个连接的模型,来帮助人们理解模型机制呢?

基于这一核心思路,OpenAI的研究人员训练了一个小模型:采用的还是现代语言模型的基础架构(类似GPT-2),只做了一个小小的改动——

强制将模型的大部分权重设为0。

所谓“回路”,是指模型能精准完成特定任务的最小计算单元。

论文将其定义为一个由节点(nodes)和边(edges)组成的图。

回路的规模可以通过节点和边的数量来衡量,论文将回路的边数几何平均值作为解释性的量化指标。

为了评估模型的可解释性,研究人员设计了一系列简单的算法任务,对于每个任务,都将模型精简到能够完成任务的“最小回路”。

举个例子:

任务:在Python中,’hello’必须以单引号结尾,”hello”必须以双引号结尾。模型可以通过记住字符串开头使用的引号类型,预测字符串结尾应使用单引号还是双引号,在结尾处自动补全字符串。

得到的回路长这样:

他们还发现:通过训练更大、更稀疏的模型,可以生成功能越来越强大、回路却越来越简单的模型。

这表明,这一方法有可能扩展到理解更复杂的行为。

不过,研究人员也强调,这项工作仍处于早期:稀疏模型比前沿模型小得多,并且即使是稀疏模型,计算过程也仍有很多“黑盒”的部分。

另外,目前稀疏模型的训练效率比较低。他们认为有两种途径来解决:

一是从现有的密集模型中提取稀疏回路,而不是从头开始训练稀疏模型。

二是开发更高效的模型训练技术,以提高模型的可解释性。

“跨界”研究团队

作者一共有6位。

通讯作者为Leo Gao,研究方向是AGI对齐,曾参与过GPT-Neo、GPT-4的研究。论文被引数3.5w ,h-index为19。

他曾是Ilya超级对齐团队成员。在Ilya领导OpenAI超级对齐团队期间,两人合作发表了一系列论文和技术博客。

Achyuta Rajaram,还在MIT学物理,是OpenAI实习生。可解释性研究之外,兴趣是解谜游戏、下棋和撸猫。

Jacob Coxon,毕业于剑桥大学三一学院,2023年加入OpenAI。在2016年和2017年,他分别获得了两届IMO的银牌和铜牌。

Soham V. Govande,来自斯坦福,正在攻读计算机科学AI方向学士学位和系统方向硕士学位。加入OpenAI之前,还曾在英伟达实习。

Bowen Baker,OpenAI多智能体团队研究科学家,2017年就加入了OpenAI,曾参与OpenAI o1的研发。

Dan Mossing,本科毕业于普林斯顿大学物理专业,后于加州大学伯克利分校取得生物物理学博士学位。

— 完 —

量子位 QbitAI · 头条号

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
国务院环卫工..(普通会员)
文章
1711
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索