从零到ChatGPT，大语言模型 (LLM) 是如何炼成的？-脚本导航

> 自媒体 > （AI）人工智能 > 从零到ChatGPT，大语言模型 (LLM) 是如何炼成的？

从零到ChatGPT，大语言模型 (LLM) 是如何炼成的？

来源：人人都是产品经理

2025-09-18 08:55:31

225

管理

从“语言模型”到“类人智能”，ChatGPT的爆火背后，是大语言模型技术的飞跃与演进。本文将带你穿越技术迷雾，从基础原理、模型训练到产业落地，系统梳理LLM的发展路径与关键节点。

阶段一：预训练（pre-training）—— 用整个互联网构建一个数字大脑

这是整个过程中计算成本最高、耗时最长的阶段。这个阶段的基础模型（Base Model）会在包含书籍、文章、网站、代码等在内的海量的文本数据上进行训练。通过反复执行“预测下一个词元”这个简单的自监督学习任务，模型逐渐学会了语法规则、掌握了大量事实知识，并发展出了初步的推理和编程能力。

【1】爬虫爬取互联网公开资源的数据集（以fineweb数据集为例）

一句话总结：我们把我们获取的文本数据转换为模型能读懂，且节省“空间”的高效语言。

依据行业里的经验，一个比较理想的符号集数量，大约是10万个符号。

以上将原始文本转换成这些符号的过程，叫做“分词”（tokenization）。最终，文本（如句子、段落）被分割成的一个个独立符号，称为“tokens”。

这些 tokens 可以是单词、子词、标点符号等（甚至同一单词不同的大小写都会影响产生不同的tokens），是模型处理文本的基本单位。在预训练模型（如 BERT、GPT 系列等）中，tokenization 是预处理文本数据的最关键步骤之一。如果你感兴趣想去直观了解不同模型因不同数据集而影响的分词tokens长啥样可以去 tiktokenizer 这个网站输入你想要的文本选择你想了解的模型，亲手体验一下。

【直观感受文本于tokens的网站：https://tiktokenizer.vercel.app/?utm_source=listedai】

在最后得到一个这样的全是符号的数据集，开始训练我们的基础大模型（Base Model）。

【3】如何训练基础大模型（Base Model）

训练神经网络（neural network training）的过程的这个阶段，是计算量最大、最耗费资源的部分。

在这一步我们要建立统计关系模型，具体来说就是这些tokens在序列中如何相互关联，我们首先要做的是回到刚刚的“词汇表”（序列数据集）中提取一段tokens，并输入给模型⬇️

比如：

提取并输入{【91】、【860】、【287】、【11579】}。去预测下一个可能的内容{【tokens】}

本质上他是一个随机过程，所以在训练初期输入{【91】、【860】、【287】、【11579】}后对应得到的{【19438】}、{【11799】}、{【3962】}这三个答案的概率基本是随机的。由于我们的词库包含了100,277（以GPT4为例）个的tokens。神经网络就存在100,277个可能的情况。

我们使用一个数学公式/算法（比如核心的梯度下降）去更新神经网络。本质上就是提升我们想要的正确答案的概率，降低其他所有选项的概率。

现在更新神经网络后再输入{【91】、【860】、【287】、【11579】}这4个特定的tokens后，神经网络就会有所调整，得出新的结果：

以上4个tokens组成的这条序列（上下文）的长度可以从0 tokens~8000 tokens。这里的0~8000 tokens，就是我们预设的上下文窗口的最大值。理论上我们可以使用任意长度的上下文，比如4000、8000、16000。但处理越长的上下文计算起来就越耗费资源，所以能处理多少的上下文也算做检验这个模型是否强大的指标之一。

比如 GPT-4 的上下文窗口能处理几万字的文本，这意味着它能“记住”更长的对话或文章内容，不会聊到一半就“忘了前面说什么”——上下文窗口越大，模型处理长文本的能力越强。

当然训练神经网络的过程不仅仅发生在这个4个特定的tokens上，而是同时作用于整个数据集中的所有tokens。

这就是神经网络的训练过程，它的本质就是找到一组合适的参数设置，让预测结果与训练集的实际统计数据的特征相符。使词元之间的关联概率一致，这些tokens相互跟随的统计规律与数据集中的一致。

阶段二：有监督微调（SFT）

此时我们发现，我们已有的Base Model，他只是一个“阅读了世界上所有百科全书的孩子”，他还不懂得怎样有效的跟人类对话。所以我们需要“给他案例，教会他怎么说话”。

所以我们在此时可以给他例举几段我们想要的query response的问答对，引导模型“说话”，例如：

阶段四内：所以针对这个情况，我们需要借助一个“小模型”–奖励模型（Reward Model）

实际结合RM进行的RLHF如下：

针对一个给定的提示（prompt），让SFT模型生成多个不同的回答。人类标注员会对这些回答进行排序，从最好到最差。然后，利用训练出的这个独立的语言模型，即“奖励模型”（RewardModel）。把上述标注员的排序，输出一个单一的数值分数。这个分数代表了“一个典型的人会有多喜欢这个回答”。

这样标注人员就不需要去做夸张工作量的打分，而是做少部分的素材排序，更便于训练。

而奖励模型，它本身是一个至关重要的“抽象层”。因为人类的价值观是复杂的、主观的，且难以用明确的规则来编码。直接用这种模糊的反馈来训练主模型是极其困难的。奖励模型的存在，就是为了学习一个简化的、可计算的“代理指标”，来代表这个复杂的价值系统。这个单一的数值分数，为最终的对齐阶段提供了一个清晰、可优化的数学目标。奖励模型就像一个翻译器，将模糊的人类偏好，翻译成了强化学习算法可以理解的语言。

通过这个循环，LLM被训练去生成那些能够从奖励模型中获得最高分数的回答。这个过程使得大规模对齐成为可能，其规模远超人类手动编写SFT数据所能达到的范畴。

RLHF是塑造模型最终“性格”的关键，使模型变得更强大，并与复杂的人类价值观保持一致。为了防止模型在追求高奖励分数的过程中“走火入魔”（幻觉），产生偏离正常语言模式的奇怪回答，通常还会加入一个惩罚项，确保其输出不会与原始的SFT模型差异过大。

结语

呼～～到这里，这轮关于 LLM 的分享就告一段落了。

其实坦白说，这篇文章算不上原创，更像是对安德烈・卡帕西系列视频的一次拙劣模仿。他用化繁为简的智慧敲开了我理解 AI 的大门，而我只是试着把这份通透，用更贴近中文读者的视角再讲一遍。若能像他年初帮到我那样，给一些好奇的朋友带去启发，就足够让我觉得值得。

跟着文字走完这趟旅程会发现：ChatGPT 这类 LLM 的构建逻辑从不是遥不可及的 “黑箱”。从预训练时吞下海量文本搭建知识地基，到SFT教会模型 “以助手身份对话”，再到RLHF用人类偏好校准方向，每一步都是前人从无到有的探索。看吧~抱着学习的心态拆解，那些看似复杂的技术，离我们一点也不远。

而 AI 本身，早已不是钢铁侠中的贾维斯只是一个符号。它注定会像水、像法拉第发现的交流电那样，成为渗透生活的基础力量，甚至在未来承载更复杂的创造与连接。

当然，篇幅所限，还有太多有趣的话题没能展开：比如 LLM “幻觉”背后的逻辑，又比如 DeepSeek 那样的模型如何实现“深度思考”。但即便如此，我也依然能冥冥中感觉到到 “AI 走进千家万户” 的未来轮廓。

就像年初卡帕西的视频点亮了我，希望这篇梳理也能为一些朋友添一点光亮。而我们所有人，都在朝着通用 AGI 的方向，带着憧憬，一步步靠近。

本文由 @四吉在这原创发布于人人都是产品经理。未经作者许可，禁止转载

题图由作者提供

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

17天前