> 自媒体 > (AI)人工智能 > 从零到ChatGPT,大语言模型 (LLM) 是如何炼成的?
从零到ChatGPT,大语言模型 (LLM) 是如何炼成的?
来源:人人都是产品经理
2025-09-18 08:55:31
225
管理

从“语言模型”到“类人智能”,ChatGPT的爆火背后,是大语言模型技术的飞跃与演进。本文将带你穿越技术迷雾,从基础原理、模型训练到产业落地,系统梳理LLM的发展路径与关键节点。

阶段一:预训练(pre-training)—— 用整个互联网构建一个数字大脑

这是整个过程中计算成本最高、耗时最长的阶段。这个阶段的基础模型(Base Model)会在包含书籍、文章、网站、代码等在内的海量的文本数据上进行训练。通过反复执行“预测下一个词元”这个简单的自监督学习任务,模型逐渐学会了语法规则、掌握了大量事实知识,并发展出了初步的推理和编程能力。

【1】爬虫爬取互联网公开资源的数据集(以fineweb数据集为例)

一句话总结:我们把我们获取的文本数据转换为模型能读懂,且节省“空间”的高效语言。

依据行业里的经验,一个比较理想的符号集数量,大约是10万个符号。

以上将原始文本转换成这些符号的过程,叫做“分词”(tokenization)。最终,文本(如句子、段落)被分割成的一个个独立符号,称为“tokens”。

这些 tokens 可以是单词、子词、标点符号等(甚至同一单词不同的大小写都会影响产生不同的tokens),是模型处理文本的基本单位。在预训练模型(如 BERT、GPT 系列等)中,tokenization 是预处理文本数据的最关键步骤之一。如果你感兴趣想去直观了解不同模型因不同数据集而影响的分词tokens长啥样可以去 tiktokenizer 这个网站输入你想要的文本选择你想了解的模型,亲手体验一下。

【直观感受文本于tokens的网站:https://tiktokenizer.vercel.app/?utm_source=listedai

在最后得到一个这样的全是符号的数据集,开始训练我们的基础大模型(Base Model)。

【3】如何训练基础大模型(Base Model)

训练神经网络(neural network training)的过程的这个阶段,是计算量最大、最耗费资源的部分。

在这一步我们要建立统计关系模型,具体来说就是这些tokens在序列中如何相互关联,我们首先要做的是回到刚刚的“词汇表”(序列数据集)中提取一段tokens,并输入给模型⬇️

比如:

提取并输入{【91】、【860】、【287】、【11579】}。去预测下一个可能的内容{【tokens】}

本质上他是一个随机过程,所以在训练初期输入{【91】、【860】、【287】、【11579】}后对应得到的{【19438】}、{【11799】}、{【3962】}这三个答案的概率基本是随机的。由于我们的词库包含了100,277(以GPT4为例)个的tokens。神经网络就存在100,277个可能的情况。

我们使用一个数学公式/算法(比如核心的梯度下降)去更新神经网络。本质上就是提升我们想要的正确答案的概率,降低其他所有选项的概率。

现在更新神经网络后再输入{【91】、【860】、【287】、【11579】}这4个特定的tokens后,神经网络就会有所调整,得出新的结果:

以上4个tokens组成的这条序列(上下文)的长度可以从0 tokens~8000 tokens。这里的0~8000 tokens,就是我们预设的上下文窗口的最大值。理论上我们可以使用任意长度的上下文,比如4000、8000、16000。但处理越长的上下文计算起来就越耗费资源,所以能处理多少的上下文也算做检验这个模型是否强大的指标之一。

比如 GPT-4 的上下文窗口能处理几万字的文本,这意味着它能“记住”更长的对话或文章内容,不会聊到一半就“忘了前面说什么”——上下文窗口越大,模型处理长文本的能力越强。

当然训练神经网络的过程不仅仅发生在这个4个特定的tokens上,而是同时作用于整个数据集中的所有tokens。

这就是神经网络的训练过程,它的本质就是找到一组合适的参数设置,让预测结果与训练集的实际统计数据的特征相符。使词元之间的关联概率一致,这些tokens相互跟随的统计规律与数据集中的一致。

阶段二:有监督微调(SFT)

此时我们发现,我们已有的Base Model,他只是一个“阅读了世界上所有百科全书的孩子”,他还不懂得怎样有效的跟人类对话。所以我们需要“给他案例,教会他怎么说话”。

所以我们在此时可以给他例举几段我们想要的query response的问答对,引导模型“说话”,例如:

阶段四内:所以针对这个情况,我们需要借助一个“小模型”–奖励模型(Reward Model)

实际结合RM进行的RLHF如下:

针对一个给定的提示(prompt),让SFT模型生成多个不同的回答。人类标注员会对这些回答进行排序,从最好到最差。然后,利用训练出的这个独立的语言模型,即“奖励模型”(RewardModel)。把上述标注员的排序,输出一个单一的数值分数。这个分数代表了“一个典型的人会有多喜欢这个回答”。

这样标注人员就不需要去做夸张工作量的打分,而是做少部分的素材排序,更便于训练。

而奖励模型,它本身是一个至关重要的“抽象层”。因为人类的价值观是复杂的、主观的,且难以用明确的规则来编码。直接用这种模糊的反馈来训练主模型是极其困难的。奖励模型的存在,就是为了学习一个简化的、可计算的“代理指标”,来代表这个复杂的价值系统。这个单一的数值分数,为最终的对齐阶段提供了一个清晰、可优化的数学目标。奖励模型就像一个翻译器,将模糊的人类偏好,翻译成了强化学习算法可以理解的语言。

通过这个循环,LLM被训练去生成那些能够从奖励模型中获得最高分数的回答。这个过程使得大规模对齐成为可能,其规模远超人类手动编写SFT数据所能达到的范畴。

RLHF是塑造模型最终“性格”的关键,使模型变得更强大,并与复杂的人类价值观保持一致 。为了防止模型在追求高奖励分数的过程中“走火入魔”(幻觉),产生偏离正常语言模式的奇怪回答,通常还会加入一个惩罚项,确保其输出不会与原始的SFT模型差异过大。

结语

呼~~到这里,这轮关于 LLM 的分享就告一段落了。

其实坦白说,这篇文章算不上原创,更像是对安德烈・卡帕西系列视频的一次拙劣模仿。他用化繁为简的智慧敲开了我理解 AI 的大门,而我只是试着把这份通透,用更贴近中文读者的视角再讲一遍。若能像他年初帮到我那样,给一些好奇的朋友带去启发,就足够让我觉得值得。

跟着文字走完这趟旅程会发现:ChatGPT 这类 LLM 的构建逻辑从不是遥不可及的 “黑箱”。从预训练时吞下海量文本搭建知识地基,到SFT教会模型 “以助手身份对话”,再到RLHF用人类偏好校准方向,每一步都是前人从无到有的探索。看吧~抱着学习的心态拆解,那些看似复杂的技术,离我们一点也不远。

而 AI 本身,早已不是钢铁侠中的贾维斯只是一个符号。它注定会像水、像法拉第发现的交流电那样,成为渗透生活的基础力量,甚至在未来承载更复杂的创造与连接。

当然,篇幅所限,还有太多有趣的话题没能展开:比如 LLM “幻觉”背后的逻辑,又比如 DeepSeek 那样的模型如何实现“深度思考”。但即便如此,我也依然能冥冥中感觉到到 “AI 走进千家万户” 的未来轮廓。

就像年初卡帕西的视频点亮了我,希望这篇梳理也能为一些朋友添一点光亮。而我们所有人,都在朝着通用 AGI 的方向,带着憧憬,一步步靠近。

本文由 @四吉在这 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图由作者提供

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
素素鴉(普通会员)
文章
1669
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索