在大型语言模型 (LLM) 日益加速发展的时代,OpenAI 作为闭源模型的鼻祖,首次开源自家模型,这才是 OpenAI 吧。这是自 GPT-2以来,OpenAI 首次分享大型、完全开放权重的模型。早期的 GPT 模型展示了 Transformer 架构的可扩展性。2022 年发布的 ChatGPT 版本通过展示其在写作和问答,编码任务中的强大实用性,使ChatGPT 一炮而红。也真正把 Transformer 模型带到了一个更高的高度。

2017 年谷歌发布的 Transformer 模型
OpenAI 开源的gpt-oss-120b 和 gpt-oss-20b 模型标志着OpenAI 转型开源模型的关键时刻。这些仅限文本的、Apache 2.0 许可的开放权重模型——因其开放权重特性而被称为“gpt-oss”——代表了 OpenAI 首次大规模涉足完全可自定义的高能力推理引擎,这些引擎可以无缝集成到代理工作流中。
模型框架它们分别拥有 1168 亿和 209 亿总参数,每个 token 的活跃参数低至 51 亿和 36 亿,gpt-oss 通过混合专家模型(MoE) 设计强调推理效率。它们支持高级功能,如可变努力链式思考 (CoT) 推理、工具使用(例如网页搜索和 Python 代码执行),以及一种新型的“Harmony Chat Format”用于结构化交互。

然而,随着研究的深入,研究人员可能逐渐注意到,Dropout 并没有真正提升 LLM 的性能。这一现象背后存在着深层次的原因。LLM 通常的训练方式与 Dropout 最初引入时的训练方案有着显著的差异。Dropout 最初被提出时,对应的训练场景往往是在相对较小的数据集上进行数百轮的训练。在这种训练模式下,模型有较多的机会去学习数据中的特征和规律,但同时也面临着过拟合的高风险。因为在多次重复训练过程中,模型可能会过度适应训练数据中的噪声和局部特征,从而导致在面对新数据时表现不佳。而 Dropout 通过随机忽略一部分神经元,迫使模型学习更具鲁棒性的特征,从而减少过拟合的可能性。
与之形成鲜明对比的是,LLM 通常是在海量数据集上进行单轮训练。以当前的一些大型语言模型为例,它们所使用的训练数据量可能达到数十亿甚至上百亿的文本词元(tokens)。在这种大规模的数据环境下,模型在单轮训练过程中就能够接触到丰富多样的语言模式和特征。每一个词元都代表着一种独特的语言信息,海量的数据使得模型有足够的机会去学习到通用的语言规律,而不是局限于特定数据的局部特征。的效果。这也促使研究人员在后续的模型开发中,不断探索和尝试新的技术和方法,以进一步提升大语言模型的性能和效率。
RoPE 取代绝对位置嵌入在基于 Transformer 架构的大语言模型(LLM)里,鉴于注意力机制的特性,位置编码显得不可或缺。在默认情形下,注意力机制会把输入的词元(token)当作无序元素来处理。

混合专家模型
将单个前馈模块替换为多个前馈模块,会显著增加模型的总参数数量。但关键之处在于,我们并非为每个词元“激活”所有专家。相反,路由网络会为每个词元仅挑选一小部分专家。
由于每次仅有少数专家处于激活状态,所以 MoE 模块通常被称为稀疏模块,这与始终使用完整参数集的密集模块形成鲜明对照。借助 MoE 所增加的大量参数,提升了大语言模型(LLM)的容量,这意味着模型在训练期间能够吸纳更多知识。同时,稀疏性确保了推理过程的高效性,因为我们不会同时启用所有参数。

常规注意力(左)和滑动窗口注意力(右)的比较。
具体来说,gpt-oss 在关注完整上下文的 GQA 层和滑动窗口限制为 128 个标记的 GQA 层之间交替。Gemma 2 (2024)采用了类似的 1:1 比例。Gemma 3则更进一步,改为 5:1 的比例,这意味着每五个滑动窗口(局部)注意力层对应一个全注意力层。
根据 Gemma 的消融研究,滑动窗口注意力机制对建模性能的影响微乎其微。需要注意的是,Gemma 2 中的窗口大小为 4096 个 token,而 Gemma 3 中将其缩减至 1024 个。在 GPT-OSS 中,窗口大小仅为 128 个 token,非常小。
RMSNorm取代LayerNorm最后,GPT - 2 做出的最后一项细微调整是,以均方根归一化(RMSNorm,2019 年提出)取代了层归一化(LayerNorm,2016 年提出),这也是近年来颇为普遍的趋势。正如用 Swish 和 SwiGLU 替换 GELU 一样,RMSNorm 属于这类虽小却卓有成效的效率改进举措之一。
RMSNorm 与 LayerNorm 颇为相似,二者的目标均是对层激活进行归一化处理。不久之前,批量归一化(BatchNorm)还是此项任务的首选方法。然而,后来它逐渐不再受青睐,主要原因在于,它在有效并行化方面存在困难(这是由于均值和方差的批次统计数据所致),并且在小批量数据的情况下表现欠佳。

小型线性层的 LayerNorm(左)和 RMSNorm(右)的比较。
层归一化(LayerNorm)与均方根归一化(RMSNorm)皆可稳定激活尺度,优化训练效果。然而,在大规模大语言模型(LLM)的应用场景中,RMSNorm 往往更胜一筹,备受青睐,究其根源在于其具备更低的计算成本。
相较于 LayerNorm,RMSNorm 摒弃了偏差(移位)项,巧妙地将复杂且成本高昂的均值与方差计算过程,简化为单一的均方根运算。这一精妙的设计,使得跨特征约简的次数从两次锐减至一次。如此一来,图形处理器(GPU)在数据通信时的开销得以显著降低,模型训练效率也随之大幅提升。
写在最后在研习大语言模型(LLM)之际,Transformer 模型堪称绝佳的入门架构。它的结构简洁明晰,能让学习者免于在纷繁复杂的层层优化技巧中迷失方向;同时,其复杂程度又恰到好处,足以使学习者扎实掌握现代 Transformer 模型的运行原理。
借助该模型,学习者能够聚焦于基础知识,如注意力机制、位置嵌入、规范化操作以及整体训练流程,而不会被新架构里的额外功能与调整所干扰、淹没。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237