从“语言模型”到“类人智能”,ChatGPT的爆火背后,是大语言模型技术的飞跃与演进。本文将带你穿越技术迷雾,从基础原理、模型训练到产业落地,系统梳理LLM的发展路径与关键节点。

阶段一:预训练(pre-training)—— 用整个互联网构建一个数字大脑
这是整个过程中计算成本最高、耗时最长的阶段。这个阶段的基础模型(Base Model)会在包含书籍、文章、网站、代码等在内的海量的文本数据上进行训练。通过反复执行“预测下一个词元”这个简单的自监督学习任务,模型逐渐学会了语法规则、掌握了大量事实知识,并发展出了初步的推理和编程能力。
【1】爬虫爬取互联网公开资源的数据集(以fineweb数据集为例)
一句话总结:我们把我们获取的文本数据转换为模型能读懂,且节省“空间”的高效语言。
依据行业里的经验,一个比较理想的符号集数量,大约是10万个符号。
以上将原始文本转换成这些符号的过程,叫做“分词”(tokenization)。最终,文本(如句子、段落)被分割成的一个个独立符号,称为“tokens”。
这些 tokens 可以是单词、子词、标点符号等(甚至同一单词不同的大小写都会影响产生不同的tokens),是模型处理文本的基本单位。在预训练模型(如 BERT、GPT 系列等)中,tokenization 是预处理文本数据的最关键步骤之一。如果你感兴趣想去直观了解不同模型因不同数据集而影响的分词tokens长啥样可以去 tiktokenizer 这个网站输入你想要的文本选择你想了解的模型,亲手体验一下。

【直观感受文本于tokens的网站:https://tiktokenizer.vercel.app/?utm_source=listedai】
在最后得到一个这样的全是符号的数据集,开始训练我们的基础大模型(Base Model)。
【3】如何训练基础大模型(Base Model)训练神经网络(neural network training)的过程的这个阶段,是计算量最大、最耗费资源的部分。
在这一步我们要建立统计关系模型,具体来说就是这些tokens在序列中如何相互关联,我们首先要做的是回到刚刚的“词汇表”(序列数据集)中提取一段tokens,并输入给模型⬇️
比如:
提取并输入{【91】、【860】、【287】、【11579】}。去预测下一个可能的内容{【tokens】}
本质上他是一个随机过程,所以在训练初期输入{【91】、【860】、【287】、【11579】}后对应得到的{【19438】}、{【11799】}、{【3962】}这三个答案的概率基本是随机的。由于我们的词库包含了100,277(以GPT4为例)个的tokens。神经网络就存在100,277个可能的情况。
我们使用一个数学公式/算法(比如核心的梯度下降)去更新神经网络。本质上就是提升我们想要的正确答案的概率,降低其他所有选项的概率。
现在更新神经网络后再输入{【91】、【860】、【287】、【11579】}这4个特定的tokens后,神经网络就会有所调整,得出新的结果:

以上4个tokens组成的这条序列(上下文)的长度可以从0 tokens~8000 tokens。这里的0~8000 tokens,就是我们预设的上下文窗口的最大值。理论上我们可以使用任意长度的上下文,比如4000、8000、16000。但处理越长的上下文计算起来就越耗费资源,所以能处理多少的上下文也算做检验这个模型是否强大的指标之一。
比如 GPT-4 的上下文窗口能处理几万字的文本,这意味着它能“记住”更长的对话或文章内容,不会聊到一半就“忘了前面说什么”——上下文窗口越大,模型处理长文本的能力越强。
当然训练神经网络的过程不仅仅发生在这个4个特定的tokens上,而是同时作用于整个数据集中的所有tokens。
这就是神经网络的训练过程,它的本质就是找到一组合适的参数设置,让预测结果与训练集的实际统计数据的特征相符。使词元之间的关联概率一致,这些tokens相互跟随的统计规律与数据集中的一致。
阶段二:有监督微调(SFT)此时我们发现,我们已有的Base Model,他只是一个“阅读了世界上所有百科全书的孩子”,他还不懂得怎样有效的跟人类对话。所以我们需要“给他案例,教会他怎么说话”。
所以我们在此时可以给他例举几段我们想要的query response的问答对,引导模型“说话”,例如:


阶段四内:所以针对这个情况,我们需要借助一个“小模型”–奖励模型(Reward Model)

实际结合RM进行的RLHF如下:
针对一个给定的提示(prompt),让SFT模型生成多个不同的回答。人类标注员会对这些回答进行排序,从最好到最差。然后,利用训练出的这个独立的语言模型,即“奖励模型”(RewardModel)。把上述标注员的排序,输出一个单一的数值分数。这个分数代表了“一个典型的人会有多喜欢这个回答”。这样标注人员就不需要去做夸张工作量的打分,而是做少部分的素材排序,更便于训练。
而奖励模型,它本身是一个至关重要的“抽象层”。因为人类的价值观是复杂的、主观的,且难以用明确的规则来编码。直接用这种模糊的反馈来训练主模型是极其困难的。奖励模型的存在,就是为了学习一个简化的、可计算的“代理指标”,来代表这个复杂的价值系统。这个单一的数值分数,为最终的对齐阶段提供了一个清晰、可优化的数学目标。奖励模型就像一个翻译器,将模糊的人类偏好,翻译成了强化学习算法可以理解的语言。
通过这个循环,LLM被训练去生成那些能够从奖励模型中获得最高分数的回答。这个过程使得大规模对齐成为可能,其规模远超人类手动编写SFT数据所能达到的范畴。
RLHF是塑造模型最终“性格”的关键,使模型变得更强大,并与复杂的人类价值观保持一致 。为了防止模型在追求高奖励分数的过程中“走火入魔”(幻觉),产生偏离正常语言模式的奇怪回答,通常还会加入一个惩罚项,确保其输出不会与原始的SFT模型差异过大。
结语呼~~到这里,这轮关于 LLM 的分享就告一段落了。
其实坦白说,这篇文章算不上原创,更像是对安德烈・卡帕西系列视频的一次拙劣模仿。他用化繁为简的智慧敲开了我理解 AI 的大门,而我只是试着把这份通透,用更贴近中文读者的视角再讲一遍。若能像他年初帮到我那样,给一些好奇的朋友带去启发,就足够让我觉得值得。
跟着文字走完这趟旅程会发现:ChatGPT 这类 LLM 的构建逻辑从不是遥不可及的 “黑箱”。从预训练时吞下海量文本搭建知识地基,到SFT教会模型 “以助手身份对话”,再到RLHF用人类偏好校准方向,每一步都是前人从无到有的探索。看吧~抱着学习的心态拆解,那些看似复杂的技术,离我们一点也不远。
而 AI 本身,早已不是钢铁侠中的贾维斯只是一个符号。它注定会像水、像法拉第发现的交流电那样,成为渗透生活的基础力量,甚至在未来承载更复杂的创造与连接。
当然,篇幅所限,还有太多有趣的话题没能展开:比如 LLM “幻觉”背后的逻辑,又比如 DeepSeek 那样的模型如何实现“深度思考”。但即便如此,我也依然能冥冥中感觉到到 “AI 走进千家万户” 的未来轮廓。
就像年初卡帕西的视频点亮了我,希望这篇梳理也能为一些朋友添一点光亮。而我们所有人,都在朝着通用 AGI 的方向,带着憧憬,一步步靠近。
本文由 @四吉在这 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图由作者提供
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237