OpenAI 开源 GPT-oss 模型：从闭源到开源的模型架构创新之路-脚本导航

> 自媒体 > （AI）人工智能 > OpenAI 开源 GPT-oss 模型：从闭源到开源的模型架构创新之路

OpenAI 开源 GPT-oss 模型：从闭源到开源的模型架构创新之路

来源：人工智能研究所

2025-09-18 13:09:06

101

管理

在大型语言模型 (LLM) 日益加速发展的时代，OpenAI 作为闭源模型的鼻祖，首次开源自家模型，这才是 OpenAI 吧。这是自 GPT-2以来，OpenAI 首次分享大型、完全开放权重的模型。早期的 GPT 模型展示了 Transformer 架构的可扩展性。2022 年发布的 ChatGPT 版本通过展示其在写作和问答，编码任务中的强大实用性，使ChatGPT 一炮而红。也真正把 Transformer 模型带到了一个更高的高度。

2017 年谷歌发布的 Transformer 模型

OpenAI 开源的gpt-oss-120b 和 gpt-oss-20b 模型标志着OpenAI 转型开源模型的关键时刻。这些仅限文本的、Apache 2.0 许可的开放权重模型——因其开放权重特性而被称为“gpt-oss”——代表了 OpenAI 首次大规模涉足完全可自定义的高能力推理引擎，这些引擎可以无缝集成到代理工作流中。

模型框架

它们分别拥有 1168 亿和 209 亿总参数，每个 token 的活跃参数低至 51 亿和 36 亿，gpt-oss 通过混合专家模型(MoE) 设计强调推理效率。它们支持高级功能，如可变努力链式思考 (CoT) 推理、工具使用（例如网页搜索和 Python 代码执行），以及一种新型的“Harmony Chat Format”用于结构化交互。

然而，随着研究的深入，研究人员可能逐渐注意到，Dropout 并没有真正提升 LLM 的性能。这一现象背后存在着深层次的原因。LLM 通常的训练方式与 Dropout 最初引入时的训练方案有着显著的差异。Dropout 最初被提出时，对应的训练场景往往是在相对较小的数据集上进行数百轮的训练。在这种训练模式下，模型有较多的机会去学习数据中的特征和规律，但同时也面临着过拟合的高风险。因为在多次重复训练过程中，模型可能会过度适应训练数据中的噪声和局部特征，从而导致在面对新数据时表现不佳。而 Dropout 通过随机忽略一部分神经元，迫使模型学习更具鲁棒性的特征，从而减少过拟合的可能性。

与之形成鲜明对比的是，LLM 通常是在海量数据集上进行单轮训练。以当前的一些大型语言模型为例，它们所使用的训练数据量可能达到数十亿甚至上百亿的文本词元（tokens）。在这种大规模的数据环境下，模型在单轮训练过程中就能够接触到丰富多样的语言模式和特征。每一个词元都代表着一种独特的语言信息，海量的数据使得模型有足够的机会去学习到通用的语言规律，而不是局限于特定数据的局部特征。的效果。这也促使研究人员在后续的模型开发中，不断探索和尝试新的技术和方法，以进一步提升大语言模型的性能和效率。

RoPE 取代绝对位置嵌入

在基于 Transformer 架构的大语言模型（LLM）里，鉴于注意力机制的特性，位置编码显得不可或缺。在默认情形下，注意力机制会把输入的词元（token）当作无序元素来处理。

混合专家模型

将单个前馈模块替换为多个前馈模块，会显著增加模型的总参数数量。但关键之处在于，我们并非为每个词元“激活”所有专家。相反，路由网络会为每个词元仅挑选一小部分专家。

由于每次仅有少数专家处于激活状态，所以 MoE 模块通常被称为稀疏模块，这与始终使用完整参数集的密集模块形成鲜明对照。借助 MoE 所增加的大量参数，提升了大语言模型（LLM）的容量，这意味着模型在训练期间能够吸纳更多知识。同时，稀疏性确保了推理过程的高效性，因为我们不会同时启用所有参数。

常规注意力（左）和滑动窗口注意力（右）的比较。

具体来说，gpt-oss 在关注完整上下文的 GQA 层和滑动窗口限制为 128 个标记的 GQA 层之间交替。Gemma 2 (2024)采用了类似的 1:1 比例。Gemma 3则更进一步，改为 5:1 的比例，这意味着每五个滑动窗口（局部）注意力层对应一个全注意力层。

根据 Gemma 的消融研究，滑动窗口注意力机制对建模性能的影响微乎其微。需要注意的是，Gemma 2 中的窗口大小为 4096 个 token，而 Gemma 3 中将其缩减至 1024 个。在 GPT-OSS 中，窗口大小仅为 128 个 token，非常小。

RMSNorm取代LayerNorm

最后，GPT - 2 做出的最后一项细微调整是，以均方根归一化（RMSNorm，2019 年提出）取代了层归一化（LayerNorm，2016 年提出），这也是近年来颇为普遍的趋势。正如用 Swish 和 SwiGLU 替换 GELU 一样，RMSNorm 属于这类虽小却卓有成效的效率改进举措之一。

RMSNorm 与 LayerNorm 颇为相似，二者的目标均是对层激活进行归一化处理。不久之前，批量归一化（BatchNorm）还是此项任务的首选方法。然而，后来它逐渐不再受青睐，主要原因在于，它在有效并行化方面存在困难（这是由于均值和方差的批次统计数据所致），并且在小批量数据的情况下表现欠佳。

小型线性层的 LayerNorm（左）和 RMSNorm（右）的比较。

层归一化（LayerNorm）与均方根归一化（RMSNorm）皆可稳定激活尺度，优化训练效果。然而，在大规模大语言模型（LLM）的应用场景中，RMSNorm 往往更胜一筹，备受青睐，究其根源在于其具备更低的计算成本。

相较于 LayerNorm，RMSNorm 摒弃了偏差（移位）项，巧妙地将复杂且成本高昂的均值与方差计算过程，简化为单一的均方根运算。这一精妙的设计，使得跨特征约简的次数从两次锐减至一次。如此一来，图形处理器（GPU）在数据通信时的开销得以显著降低，模型训练效率也随之大幅提升。

写在最后

在研习大语言模型（LLM）之际，Transformer 模型堪称绝佳的入门架构。它的结构简洁明晰，能让学习者免于在纷繁复杂的层层优化技巧中迷失方向；同时，其复杂程度又恰到好处，足以使学习者扎实掌握现代 Transformer 模型的运行原理。

借助该模型，学习者能够聚焦于基础知识，如注意力机制、位置嵌入、规范化操作以及整体训练流程，而不会被新架构里的额外功能与调整所干扰、淹没。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

16天前