DeepSeek R1推理模型训练过程详解：四种策略提升推理能力

DeepSeek如何训练其R1推理模型？

本文主要基于DeepSeek发布的技术报告，解释了DeepSeek的培训过程 - R1；专注于四种建立和改进推理模型的策略。

原始文本来自研究人员塞巴斯蒂安·拉斯卡卡（Sebastian Raschka），发表于：

本文将总结R1推理模型的核心培训部分。

首先，根据DeepSeek发布的技术报告，以下是R1的培训表。

让我们整理上面图所示的过程，其中：

（1）DeepSeek - R1 - 零：该模型基于去年12月发布的DeepSeek - V3基本模型。它是使用强化学习（RL）和两种奖励机制的训练。这种方法称为“冷启动”训练，因为它不包括监督的微调（SFT）步骤，这些步骤通常是人类反馈强化学习（RLHF）的一部分。

（2）DeepSeek - R1：这是DeepSeek的主要推理模型，建立在DeepSeek - R1 - 零上。该团队通过其他有监督的微调阶段和进一步的加强学习培训来对其进行了优化，以改善“冷启动” R1零模型。

（3）DeepSeek - R1 - Distill：DeepSeek团队使用了先前步骤中生成的监督微调数据来增强其推理能力。尽管这不是传统的蒸馏，但该过程涉及训练较小的模型（Llama 8B和70B，以及QWEN 1.5B - 30B），使用较大的671B DeepSeek - R1模型的输出。

以下将介绍四种主要方法来构建和改进推理模型

1。推理时间缩放

提高LLM推理能力（或通常意义上的任何能力）的一种方法是扩展推理 - 在推理过程中添加计算资源以提高输出质量。

举一个粗略的例子，就像人们有更多时间思考复杂的问题时，他们通常可以给出更好的答案。同样，我们可以使用一些技术来鼓励LLM在生成答案时更深入地“思考”。

实施推理时间缩放的一种简单方法是巧妙的提示工程/及时的工程。一个经典的例子是思维链提示/COT提示，该提示是在输入提示中包括诸如“逐步思考”之类的短语。这将促使模型生成中间推理步骤，而不是直接跳到最终答案，这通常可以在更复杂的问题上产生更准确的结果。（请注意，对于更简单的基于知识的问题，例如“法国的首都是什么？”，采用这种策略是毫无意义的，这也是判断推理模型是否适用于给定输入查询的实际经验法则。）

上述思想链（COT）方法可以视为推理时间扩展，因为它通过产生更多的输出令牌来增加推理成本。

推理时扩展的另一种方法是采用投票和搜索策略。一个简单的例子是多数投票方法，这意味着LLM会生成多个答案，然后通过多数投票选择正确的答案。同样，我们可以使用捆绑搜索和其他搜索算法来生成更好的答案。

在这里，我们建议“比例测试时间计算比缩放模型参数更有效”。

不同的基于搜索的方法依赖基于过程奖励的模型来选择最佳答案。

DeepSeek R1技术报告说，其模型不采用推理时间扩展技术。但是，这项技术通常是在LLM上方的应用层实施的，因此DeepSeek可能在其应用程序中使用了该技术。

我推测OpenAI的O1和O3模型使用推理时间缩放技术，这解释了与GPT-4O这样的模型相比，它们为什么相对具有成本效益。除了推理时间延长外，O1和O3可能通过类似于DeepSeek R1的增强学习过程进行培训。

2。纯强化学习/纯RL

在DeepSeek R1论文中特别值得注意的一件事是，他们发现推理可以从纯净的强化学习作为一种行为中出现。让我们讨论这意味着什么。

如前所述，DeepSeek开发了三种R1模型。第一个是DeepSeek - R1 - 零，它建立在DeepSeek - V3基本模型上。与典型的增强学习过程不同，监督的微调（SFT）通常是在加固学习之前进行的，但是DeepSeek - R1 - 零是通过强化学习而没有初始监督的微调/SFT阶段的培训，如下图所示。

然而，这种强化学习过程类似于通常用于微调LLM偏好的人类反馈增强学习（RLHF）方法。但是，如上所述，DeepSeek - R1 - 零之间的关键区别在于它们跳过了监督的微调（SFT）阶段以进行指导调整。这就是为什么他们将其称为“纯”增强学习/纯RL的原因。

在奖励方面，他们没有使用基于人类偏好训练的奖励模型，而是采用了两种类型的奖励：准确性奖励和格式奖励。

令人惊讶的是，这种方法足以允许LLM发展基本的推理技能。研究人员观察到了一个AHA时刻，该模型开始在其答案中产生推理的痕迹，尽管未清楚地训练它，如下图所示，从R1技术报告中所示。

如上图所示，虽然R1-Zero不是顶级推理模型，但它确实通过生成中间“思考”步骤显示了推理能力。这证实使用纯强化学习来开发推理模型是可行的，而DeepSeek是第一支（或至少发布相关结果）这种方法的团队。

3。监督微调和加强学习（SFT + RL）

接下来，让我们看一下DeepSeek的主要推理模型DeepSeek - R1的开发过程，可以将其视为构建推理模型的教科书。基于DeepSeek - R1 - 零，该模型结合了更多监督的微调（SFT）和加固学习（RL），以提高其推理性能。

应该注意的是，在加强学习之前，添加了监督的微调阶段，这在标准的人类反馈增强学习（RLHF）过程中很常见。 Openai的O1也可能使用类似的方法开发。

如上图所示，DeepSeek团队利用DeepSeek - R1 - 零来生成他们所谓的“冷启动”监督微调（SFT）数据。 “冷启动”一词是指数据是由DeepSeek - R1 - 零生成的，并且该模型本身未在任何有监督的微调数据上训练。

DeepSeek使用这些冷启动的SFT数据，首先通过指导进行微调来训练模型，然后进入另一个增强学习（RL）阶段。此RL阶段遵循DeepSeek - R1 - 零的RL过程中使用的准确性和格式奖励。但是，他们增加了一致性的奖励，以防止模型在答案中具有语言混乱，即模型在一个答案中切换多种语言。

在RL阶段之后，输入了另一轮SFT数据收集。在此阶段，使用最新的模型检查站生成了600,000个思想链（COT）SFT示例（600K COT SFT示例），而使用DeepSeek –V3 Basic Model（200K知识）创建了额外的200,000个基于200,000个知识的SFT示例SFT示例）。

然后，使用这些600,000 + 20万SFT样品来微调DeepSeek - V3基本模型的指示，然后是最后一轮RL。在此阶段，对于数学和编程问题，他们再次使用基于规则的方法来确定准确性奖励，而对于其他类型的问题，则使用人类偏好标签。总而言之，这与传统的人类反馈增强学习非常相似，只是（更多）思维链示例包括在SFT数据中。此外，除了基于人类偏好的奖励外，RL还具有可验证的奖励。

与DeepSeek - R1 - 零相比，最终模型DeepSeek - R1由于额外的SFT和RL阶段而具有显着的性能提高，如下表所示。

4。纯监督的微调（SFT）和蒸馏

到目前为止，我们介绍了建立和改进推理模型的三种关键方法：

1/推理时间扩展，这种技术可以提高不训练或以其他方式修改基础模型的技术。

2/纯RL，例如DeepSeek - R1 - 零中使用的纯强化学习（RL），它表明推理可以作为学习的行为而无需进行微调。

3/监督微调（SFT） +加固学习（RL），导致DeepSeek的推理模型DeepSeek - R1。

左 - 模型“蒸馏”。 DeepSeek还发布了通过所谓的蒸馏过程训练的较小型号。在LLM的背景下，蒸馏不一定遵循深度学习中使用的经典知识蒸馏方法。传统上，在知识蒸馏中，较小的“学生”模型接受了较大“老师”模型和目标数据集的逻辑输出的培训。

但是，此处的蒸馏是指针对较小LLM的较小LLM的指令登录/指令列，该数据集由较大的LLM产生的较小LLMS（例如Llama 8B和70B型号）以及Qwen 2.5B（0.5B） - 32B）。具体而言，这些较大的LLM是DeepSeek - V3和DeepSeek - R1的中间检查点/检查点。实际上，用于此蒸馏过程的监督微调数据/SFT数据与用于训练上一节中描述的DeepSeek-R1的数据集相同。

为了阐明此过程，我突出显示了下图中的蒸馏部分。

他们为什么要开发这些蒸馏模型？有两个关键原因：

1/较小的型号更有效。这意味着他们运行便宜，还可以使用低端硬件运行，对许多研究人员和发烧友来说尤其有吸引力。

2/作为纯监督微调（SFT）的案例研究。这些蒸馏模型是一个有趣的基准，它表明纯监督的微调可以使该模型在不加强学习的情况下将模型提高到一个水平。

下表将这些蒸馏模型的性能与其他流行模型以及DeepSeek - R1 - 零和DeepSeek - R1进行了比较。

如我们所见，尽管蒸馏模型比DeepSeek-R1小几个数量级，但它们比DeepSeek-R1-Zero强大，但仍然比DeepSeek-R1弱。有趣的是，这些模型与O1-Mini相比表现良好（怀疑O1-Mini本身可能是O1的类似蒸馏版）。

还有一个有趣的比较值得一提。 DeepSeek团队测试了DeepSeek - R1 - 零中发生的突发推理行为是否也可以出现在较小的型号中。为了研究这一点，他们在DeepSeek - R1 - 零直接应用于QWEN - 32B中使用了相同的纯强化学习方法。

下表总结了该实验的结果，其中QWQ - 32B - 预览是基于QWEN团队开发的QWEN 2.5 32B的参考推理模型。这种比较提供了一些有关纯强化学习是否可以在比DeepSeek较小的模型中诱导推理功能的其他见解。

有趣的是，结果表明，对于较小的模型，蒸馏比纯钢筋学习要有效得多。这与这样的想法一致，即仅加强学习可能不足以在此规模的模型中诱导强大的推理能力，并且基于高质量推理数据的监督微调可能是一个更有效的策略。

综上所述

我们探讨了建立和提升推理模型的四种不同策略：

推理时间延长：不需要额外的培训，而是提高推理成本。随着用户数量或查询量的增加，大规模部署的成本将更高。但是，这仍然是提高已经有力模型的性能的简单有效方法。我强烈怀疑O1使用推理时间扩展，这也解释了为什么O1比DeepSeek-R1的O1成本高。

从研究的角度来看，纯钢筋学习纯RL：这很有趣，因为它使我们对推理过程有了更深入的了解。但是，在实际的模型开发中，增强学习和监督微调（RL + SFT）的组合是一个更好的选择，因为此方法可以构建更强的推论模型。我还强烈怀疑O1也通过RL+SFT训练。相反，我认为O1的基础模型比DeepSeek - R1开始，但是将缝隙与RL+SFT和推理时间扩展桥接。

如上所述，RL + SFT是构建高性能推理模型的关键方法。 DeepSeek - R1向我们展示了实现这一目标的出色蓝图。

蒸馏：这是一种有吸引力的方法，特别适合创建较小，更高效的模型。但是，其限制是蒸馏无法驱动创新或产生下一代推断模型。例如，蒸馏始终依靠现有的强大模型来生成监督的微调（SFT）数据。

接下来，我期待看到的一个有趣的方向是将RL+SFT（方法3）与推理时间扩展（方法1）相结合。这可能是Openai的O1所做的，只是O1可能基于一个基本模型，该模型比DeepSeek-R1弱，这也解释了为什么DeepSeek-R1的性能很好，并且在推理方面相对较低。