> 自媒体 > (AI)人工智能 > OpenAI 开源 GPT-oss 模型:从闭源到开源的模型架构创新之路
OpenAI 开源 GPT-oss 模型:从闭源到开源的模型架构创新之路
来源:人工智能研究所
2025-09-18 13:09:06
101
管理

在大型语言模型 (LLM) 日益加速发展的时代,OpenAI 作为闭源模型的鼻祖,首次开源自家模型,这才是 OpenAI 吧。这是自 GPT-2以来,OpenAI 首次分享大型、完全开放权重的模型。早期的 GPT 模型展示了 Transformer 架构的可扩展性。2022 年发布的 ChatGPT 版本通过展示其在写作和问答,编码任务中的强大实用性,使ChatGPT 一炮而红。也真正把 Transformer 模型带到了一个更高的高度。

2017 年谷歌发布的 Transformer 模型

OpenAI 开源的gpt-oss-120b 和 gpt-oss-20b 模型标志着OpenAI 转型开源模型的关键时刻。这些仅限文本的、Apache 2.0 许可的开放权重模型——因其开放权重特性而被称为“gpt-oss”——代表了 OpenAI 首次大规模涉足完全可自定义的高能力推理引擎,这些引擎可以无缝集成到代理工作流中。

模型框架

它们分别拥有 1168 亿和 209 亿总参数,每个 token 的活跃参数低至 51 亿和 36 亿,gpt-oss 通过混合专家模型(MoE) 设计强调推理效率。它们支持高级功能,如可变努力链式思考 (CoT) 推理、工具使用(例如网页搜索和 Python 代码执行),以及一种新型的“Harmony Chat Format”用于结构化交互。

然而,随着研究的深入,研究人员可能逐渐注意到,Dropout 并没有真正提升 LLM 的性能。这一现象背后存在着深层次的原因。LLM 通常的训练方式与 Dropout 最初引入时的训练方案有着显著的差异。Dropout 最初被提出时,对应的训练场景往往是在相对较小的数据集上进行数百轮的训练。在这种训练模式下,模型有较多的机会去学习数据中的特征和规律,但同时也面临着过拟合的高风险。因为在多次重复训练过程中,模型可能会过度适应训练数据中的噪声和局部特征,从而导致在面对新数据时表现不佳。而 Dropout 通过随机忽略一部分神经元,迫使模型学习更具鲁棒性的特征,从而减少过拟合的可能性。

与之形成鲜明对比的是,LLM 通常是在海量数据集上进行单轮训练。以当前的一些大型语言模型为例,它们所使用的训练数据量可能达到数十亿甚至上百亿的文本词元(tokens)。在这种大规模的数据环境下,模型在单轮训练过程中就能够接触到丰富多样的语言模式和特征。每一个词元都代表着一种独特的语言信息,海量的数据使得模型有足够的机会去学习到通用的语言规律,而不是局限于特定数据的局部特征。的效果。这也促使研究人员在后续的模型开发中,不断探索和尝试新的技术和方法,以进一步提升大语言模型的性能和效率。

RoPE 取代绝对位置嵌入

在基于 Transformer 架构的大语言模型(LLM)里,鉴于注意力机制的特性,位置编码显得不可或缺。在默认情形下,注意力机制会把输入的词元(token)当作无序元素来处理。

混合专家模型

将单个前馈模块替换为多个前馈模块,会显著增加模型的总参数数量。但关键之处在于,我们并非为每个词元“激活”所有专家。相反,路由网络会为每个词元仅挑选一小部分专家。

由于每次仅有少数专家处于激活状态,所以 MoE 模块通常被称为稀疏模块,这与始终使用完整参数集的密集模块形成鲜明对照。借助 MoE 所增加的大量参数,提升了大语言模型(LLM)的容量,这意味着模型在训练期间能够吸纳更多知识。同时,稀疏性确保了推理过程的高效性,因为我们不会同时启用所有参数。

常规注意力(左)和滑动窗口注意力(右)的比较。

具体来说,gpt-oss 在关注完整上下文的 GQA 层和滑动窗口限制为 128 个标记的 GQA 层之间交替。Gemma 2 (2024)采用了类似的 1:1 比例。Gemma 3则更进一步,改为 5:1 的比例,这意味着每五个滑动窗口(局部)注意力层对应一个全注意力层。

根据 Gemma 的消融研究,滑动窗口注意力机制对建模性能的影响微乎其微。需要注意的是,Gemma 2 中的窗口大小为 4096 个 token,而 Gemma 3 中将其缩减至 1024 个。在 GPT-OSS 中,窗口大小仅为 128 个 token,非常小。

RMSNorm取代LayerNorm

最后,GPT - 2 做出的最后一项细微调整是,以均方根归一化(RMSNorm,2019 年提出)取代了层归一化(LayerNorm,2016 年提出),这也是近年来颇为普遍的趋势。正如用 Swish 和 SwiGLU 替换 GELU 一样,RMSNorm 属于这类虽小却卓有成效的效率改进举措之一。

RMSNorm 与 LayerNorm 颇为相似,二者的目标均是对层激活进行归一化处理。不久之前,批量归一化(BatchNorm)还是此项任务的首选方法。然而,后来它逐渐不再受青睐,主要原因在于,它在有效并行化方面存在困难(这是由于均值和方差的批次统计数据所致),并且在小批量数据的情况下表现欠佳。

小型线性层的 LayerNorm(左)和 RMSNorm(右)的比较。

层归一化(LayerNorm)与均方根归一化(RMSNorm)皆可稳定激活尺度,优化训练效果。然而,在大规模大语言模型(LLM)的应用场景中,RMSNorm 往往更胜一筹,备受青睐,究其根源在于其具备更低的计算成本。

相较于 LayerNorm,RMSNorm 摒弃了偏差(移位)项,巧妙地将复杂且成本高昂的均值与方差计算过程,简化为单一的均方根运算。这一精妙的设计,使得跨特征约简的次数从两次锐减至一次。如此一来,图形处理器(GPU)在数据通信时的开销得以显著降低,模型训练效率也随之大幅提升。

写在最后

在研习大语言模型(LLM)之际,Transformer 模型堪称绝佳的入门架构。它的结构简洁明晰,能让学习者免于在纷繁复杂的层层优化技巧中迷失方向;同时,其复杂程度又恰到好处,足以使学习者扎实掌握现代 Transformer 模型的运行原理。

借助该模型,学习者能够聚焦于基础知识,如注意力机制、位置嵌入、规范化操作以及整体训练流程,而不会被新架构里的额外功能与调整所干扰、淹没。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
吴月(普通会员)
文章
1698
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索