

图源:Nature 图源:Nature
导读:
2025年9月18日,DeepSeek成为了首个登上Nature封面、经过严格同行审议的大模型研究。封面的Self-Help(自我帮助)指出了该研究的关键词-“强化学习”。
本文将从训练方法,训练效果,以及安全方面考虑,阐述该研究的亮点与价值。
郭瑞东|撰文
王一苇|编辑
DeepSeek的训练细节全公开DeepSeek年初的爆火,在国内外引发了诸多讨论和争议,例如,其训练成本是否真如宣称的那样少,是否使用OpenAI的大模型输出作为训练数据。
而对这些问题的最好回应,便是一份完整而细致的训练手册,让相关从业者能够从头开始复现出模型训练的全过程。
正所谓,授人以鱼,不如授人以渔。下面,该文将用拟人化方式描述训练过程,该叙述为了便于读者理解,用了拟人的修辞手法,请勿过度联想。
所谓强化学习,如同孩童在游戏世界中操控其角色时,通过试错学习到某些行为(如收集金币)会获得积分,而另一些行为(如遭遇敌人)则会使分数归零。
DeepSeek-R1训练的第一步,可以比喻成名师找到了一个天才弟子(Deepseek-V3 Base),然后让它回答海量有明确答案的编程与数学问题,解题时必须生成推理过程,再给出答案。
DeepSeek论文作者中,有一位是名为涂津豪的高中生。他的贡献是提出了一个通过反思,让非推理模型具有深度思考能力的提示词模板。图1左侧子图描述的过程,正是基于类似的提示词模板,“督促”大模型多次反思,并展示思考过程。人类专家从DeepSeek V3 Base在面对数学和编程问题时,展示的思考案例中挑选并修改,最终获得符合66000例符合人类推理模式的示例,用于下一阶段的训练。前述的示例集合,可以看成是编写一本来自名师的例题精讲册。
之后的训练过程,如同本就聪明的学生拿到了名师习题精讲,通过监督微调(SFT supervise fine turning),成为了一名"小镇做题家"(DeepSeek-R1 Dev1),之后的强化学习,让这个学生能够在更多老师没有讲过的习题中,自由探索可能的推理过程(图1中间所述),之后获得的新模型(DeepSeek-R1 Dev2)。再从DeepSeek-R1 Dev2的推理示例中抽取一部分,相当于是小镇做题家经过社会磨练后,根据自身试错经验,总结的成功案例集。之后将DeepSeek-V3提供的非推理示例,以及前述的成功案例集合起来用于培养下一代的好苗子(DeepSeek-V3 Base),让其先后经过学校里的监督微调,以及社会上摸爬滚打(强化学习),最终得到了DeepSeek-R1(图1右侧子图)。

图2:DeepSeek R1的训练成本(来自论文补充表格4)
成本披露对市场动态具有深远影响。行业观察者此前估计推理模型开发需要数亿美元的计算资源,而 DeepSeek 的成功表明,进入壁垒可能远低于原先的假设。
DeepSeek团队不仅发布了训练好的模型,还提供了详细的训练流程(包括用于训练DeepSeek-R1 Zero)、超参数和数据样本(分别用于监督微调和强化学习的1000个示例)——这些信息能够实现可重复性。DeepSeek团队的全方位开放,如同一个川菜大厨毫不藏私地写菜谱,新手照着做就能做出美味菜肴,菜谱中还都是家常菜(低成本),这对于推广川菜无疑是一大助力。
这也是为何学界对这项研究高度评价的原因,在大模型在社会中的应用越来越广泛的时候,我们不希望手中使用的工具是一个技术黑箱。如果说公布大模型的权重,相当于给一道菜打上了营养含量表;而开源训练过程,相当于将后厨开放参观,由此大众对大模型的安全性,可靠性会更有信心。
怎么给DeepSeek喂“甜枣”在上述训练过程中,大模型在强化学习训练时的奖励从何而来?每一步的奖励有何不同之处?作为训练信号来源,奖励决定了强化学习优化的方向,在训练DeepSeek-R1-Zero时,使用的是基于规则的奖励来为数学、编程和逻辑推理领域中的数据提供精确的反馈。这时的奖励考察的是模型推理是否准确,推理过程是否符合提示词规定的格式,两种权重相同。前者是客观反馈,后者确保了模型的思维过程被明确界定,增强了可解释性,并促进了后续分析。

由此得到了最终训练通用案例时用到的奖励,包括前述的推理过程分,回答是否有用且安全,以及推理语言的针对性。
之所以详述不同阶段强化学习用到的奖励,是为了让读者明白大模型训练过程中,到底哪些因素是关键变量,哪些因素被忽略了。未来或许可以通过调整奖励的组成部分,来提升模型的性能。例如在奖励中,不仅是依赖知情同意的用户对两组回复是否有用的评价,还包括相关领域专家对模型信息是否准确的打分(用户觉得有帮助的回复不一定是准确的),从而减少幻觉,即AI编造的错误信息。
让大模型学会慢思考推理能力是人类智能的基石,它使人类能够完成从数学问题解决到逻辑推理和编程等复杂的认知任务。为了让大模型开展推理,可采用思维链(chain of thought COT),通过提供精心设计的少量示例,或使用“让我们逐步思考”等极简提示来让模型思考。DeepSeek-R1的成功,相当于让大模型自己学会了根据用户问题,生成能促进推理的提示词(展示给用户的深度思考过程),从而提升大模型的推理能力。
而强化学习的使用,使得模型训练过程不再上述让大模型复制人类思维过程,从而性能受限于人类提供的范例。类似AlphaGo在和李世石对弈时走出的出乎意料的一招,超越了人类棋手的套路。单纯模仿人类思维,阻碍了对更优越、非人类思维方式的探索。
推理能力提升的具体表现是,随着训练过程(图3横轴的轮数)的增加,DeepSeek-R1 Zero思考过程中与推理相关的词汇(“等待”、“错误”、“然而”、“但是”、“重试”、“错误”、“验证”、“错误”、“评估”和“检查”)出现频率(图3a纵轴)增加。wait这个词尤其明显(图3b)。

图6:DeepSeek原生模型及包含风险控制系统后与其他主流模型在安全指标上对比
在现实应用场景中,恶意用户可能会采用各种越狱技术,绕过模型的安全对齐机制,诱导模型生成有害回应。因此,除了评估模型在直接提问下的安全性外,还要特别重视检验模型在面对越狱攻击时的鲁棒性。DeepSeek团队开发了一个包含2232条越狱指令的模板库,随后将这些越狱提示与原始安全测试集(见4.3.3节)中的问题随机组合,并进一步比较模型在面对原始不安全问题与融入越狱元素的新问题时,其回应表现的差异。

图7:面对越狱攻击时DeepSeek与其他模型在安全性上的表现对比
从中可以看出,所有被测试的模型在面对越狱攻击时,均表现出不安全回应和拒绝率显著上升,同时安全回应率明显下降。而开源模型(如 DeepSeek、Qwen)相比闭源模型面临更严峻的越狱安全挑战,更依赖风险控制系统进行安全检查以确保安全,因此该研究建议开源模型部署时,加入类似的风险控制措施。
公开严谨的审稿过程DeepSeek作为首个在国际顶尖期刊发表研究的大模型,这一创举为人工智能研究的可信度确立了新标准。同行评审、详细方法披露和可复现的结果相结合,给竞争对手带来了压力,迫使他们通过独立验证来同样验证其主张。
从企业的自夸自擂,到经过同行评审的严谨学术论文,DeepSeek开启的转向,如果能成为大模型的行业主流,将通过加速真正的创新并过滤掉未经证实的炒作来使AI生态受益。投资者和客户都可能越来越要求开发者对其产品AI能力的主张提供经过同行评审的证据,特别是在高风险应用领域,如医疗保健、金融和自主驾驶系统。
值得注意的是,从今年2月DeepSeek-R1的论文预印,到之后的发表,其中经历了三轮审稿,审稿参与人员高达8位,相比大多数论文的审稿人只是三位,这说明了DeepSeek审稿过程的严谨。审稿过程中每一轮提出的建议完整公开。审稿过程中,审稿人重点提出了安全方面的考量,对此DeepSeek团队在之后的版本中对此进行了补充。对于模型的局限性,也在Nature论文中有所提及。
随着人工智能行业在安全、透明度和验证方面面临日益严格的审查,DeepSeek 为负责任的大模型开发提供了路线图,同时保持了竞争优势,起到了示范效应。硅谷的主要参与者是否会采取类似的开放态度——或者加倍投入闭源模型——可能会决定行业在未来的发展轨迹。
DeepSeek在Hugging face(大模型领域头部下载平台)迄今为止下载量总数高达1090万次,是排名第一的大模型。它的出现意味着推理能力的民主化,加速了大模型以往无法负担前沿人工智能部署的多个领域中的应用。教育机构、小型科技企业和研究机构可能会获得曾经仅限于资金雄厚的科技巨头才能享有的能力,例如对大模型进行定制化的优化。
而通过了解模型的训练全过程,以及训练中用到的奖励函数,开发者可以有的放矢的进行优化。以面向未成年的大模型开发为例,可以对模型生成结果的准确性赋予更高的权重,在训练时修改奖励函数,不是考察用户觉得模型的回复是否有效,而是由各科老师去评估回复能否准确传递所需的知识。同时在安全控制中,增加对大模型谄媚行为(不加选择,罔顾事实的讨好用户)的惩罚。
参考文献:
[1] https://www.ctol.digital/news/chinese-ai-lab-deepseek-first-language-model-published-nature/
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237