强化学习的成本仅为十分之一。文莉思维机器聚焦Kwen黑科技

新智元报告主编：KingHZ丁辉【新智元介绍】强化学习能以十分之一的成本“获胜”。最新 Thinking Machines 文章中的这个开源策略实际上已经可用了！您可以直接在 Tinker 中播放。当前的大型模型在某些领域能够达到专家级的性能并不奇怪。但是是否有可能在给定领域实现接近专家水平的性能，同时仍然使模型更小？嗯，通常的答案是“模型蒸馏”。例如，DeepSeek-R1发布时，也发布了多个蒸馏模型（R1模型的参数为671B，蒸馏模型比较小，如1.5B、7B、14B）。有更好的办法吗？这就是我们今天要讲的：政治中的蒸馏（同政治/网络政治蒸馏）。这是思维机器的一项新活动。这一新策略具有唯一的有效性和可靠性。线下策略方法，例如强化学习，以及离线（非策略）策略方法的数据效率。 Mira Murati 认为，这一策略可以让小模型提高特定领域的表现并持续学习。 Lilian Wen称赞这种新方法“优雅”。该策略被认为提供了一种优雅的方式，使用教师模型作为过程奖励模型来提供密集的奖励。在进入正题之前，我先简单介绍一下这家“奇怪”的公司。该公司由 OpenAI 前 CTO Mira Murati 创立，作为一家零产品、零模型（准确的说是一种产品，Tinker）的公司，一直在 AI 界备受瞩目。例如，这最后一篇文章是我们继launchTinker的nto之后的最后一个焦点。本质是验证你的产品。 Tinker 是一个用于微调开源 LLM 的开发人员 API 平台。过去，调优大型模型通常需要购买或租用 GPU 集群并添加训练脚本，分布式同步、灾难恢复，我还必须为戴尔管理并行性、存储和调整优化器参数……这很痛苦。 Tinker 抽象了这些基础设施任务，使研究人员能够专注于“数据、算法和任务”，而不是“操作和维护训练管道”。回到主题。如果你想清楚地解释为什么一个模型实际上可以通过基于策略的蒸馏来“学习”特定的领域知识，你应该从LLM培训开始。顺便说一下，这部新作是基于Qwen之前的作品改编的。以下内容摘自Thinking Machines 的博客。为什么大型模型具有专家级的性能？法学硕士可以在给定领域展示专家级的表现。这是输入识别、知识检索、计划选择和可靠执行等多种功能的结果。这需要多种训练方法，目前大部分可以分为三个阶段。预训练用于o 教授一般技能，如语言使用、一般推理和世界知识。中级培训用于教授编码、医学数据库和内部文档等领域。后训练用于引导模型产生目标行为，例如听从指令、解决数学问题、聊天等。较小的、训练有素的模型往往在专业领域优于较大的通用模型。使用小模型有很多优点。出于隐私和安全原因，它可以部署在本地。持续培训和更新更容易。并节省推理成本。为了利用这些好处，您必须在培训的后期选择适当的方法。随后有两种方法可以训练“学生”模型。相同策略/同策略训练从学习者模型本身的轨迹中采样，并为其分配特定的奖励。政策之外的培训基于外部来源提供的客观结果，并且学生学习模仿这些结果。例如，您可能想要训练一个紧凑的模型来解决一个数学问题，例如：您可以使用强化学习以相同的策略进行训练，并根据学生生成的每个轨迹是否解决了问题进行评分。评分可以手动完成，也可以通过可以可靠地产生准确答案的“主”模型完成。采用相同策略训练的优点在于，通过使用自生成样本进行训练，学生可以更直接地学会避免错误。然而，强化学习有很大的缺点。强化学习提供非常稀疏的反馈，无论使用多少令牌，在每轮训练中仅传输固定数量的信息位。在上面的示例中，学生知道“21”是错误答案，并更新模型以避免重新生成尝试的轨迹。但你不知道错误在哪里，无论是错误的还是错误的。操作的顺序或操作本身。反馈的缺乏使得强化学习在许多应用中效率低下。训练异构n通常是通过监督微调（SFT）或对特定任务的一组选定的标记示例进行训练来实现的。这些标记样本可以来自已被证明在任务上表现良好的监督模型。可以使用蒸馏机制。即训练学生模型以匹配教师模型的输出分布。我们根据老师的轨迹进行训练，这是生成标记的整个序列，包括中间的思维步骤。您可以在每个步骤中使用教师模型的整个“下一个令牌分布”（通常称为“logit 蒸馏”），或者您可以仅对某些序列进行采样。在实践中，抽样序列提供了对教师分布的无偏估计并实现了相同的目标。学生模型根据概率更新每个令牌的强度及其自己的生成顺序。生成特定令牌的可能性越小，该令牌的刷新率就越高。在以下示例中，更新的幅度是彩色的。它以阴影来表达。我们发现，从大型教师模型中提取数据更适合训练较小的模型来遵循指示、用数学科学推理以及从医生笔记中提取信息。对于捕获临床信息和进行多轮聊天对话非常有效。为这些应用程序和其他应用程序提取的数据集通常是开源且公开的。使用不同策略训练的缺点是学生模型在教师模型经常遇到的情况下学习，而不是在教师模型本身将来经常遇到的情况下学习。这可能会导致错误累积。如果学生的模型从一开始就犯了错误，那么教学如果模型没有做出来，他就会离训练时观察到的状态越来越远。当涉及到 Student 模型在长序列上的性能时，这个问题尤其值得注意。为了避免出现这样的偏差，模范学生必须学会从错误中改正。异规蒸馏的另一个问题是学生模型可以学习模仿教师的风格和置信水平，但不一定具有客观准确性。如果你正在学习下棋，使用相同策略的强化学习就像在没有教练指导的情况下下棋一样。输赢反馈与您的比赛直接相关，但每场比赛您只能收到一次反馈，并且您不知道哪一步将决定最终结果。提炼出不同的策略就像看大师下棋一样。你看到的是高技术的走法，但这些走法是在国际象棋新手很少遇到的情况下做出的。我们想把同质化结合起来强化学习与提取的密集奖励信号的相关性。这就像学习下棋并让老师将你的动作从“大错误”评分为“优秀”。对于法学硕士后的培训，这是基于政策的升华。截图来自 chess.com。分析引擎对每个动作进行颜色编码，以识别大错误（红色）、错误（橙色）和不准确的动作（黄色）或大手（蓝色）。相同的策略蒸馏：两全其美相同的策略蒸馏的核心思想是从学生模型中采样轨迹，并使用高性能的教师模型对每个轨迹的每个标记进行评分。回到前面的数学例子，相同策略的综合将对解决问题过程中的每个步骤进行评分，惩罚导致学生得出错误答案的步骤并强化正确执行的步骤。本文描述了将相同策略的精炼应用于特定任务，例如训练模式l 执行数学推理或训练具有领域知识和遵循指令的能力的辅助模型。研究人员为模型提取了相同的策略，通过前期和中期培训为功能奠定了基础。我们发现这是一种强大且经济的训练后方法，它将训练的好处与高密度奖励信号的相同策略结合起来。我们提取相同策略的工作受到 DAGGER 的启发，DAGGER 是一种迭代 SFT 算法，涉及根据学生模型访问的状态来评估主模型。这也类似于过程奖励建模，这是一种强化学习技术，可以限定学生模型思想链中的每个步骤。研究人员扩展了 Agarwal 等人早期关于同一战略蒸馏的工作。还有Qwen3团队。通过使用 Tinker 实现训练 API，他们复制了 Qwen3 的结果。使用相同的策略精炼，我们可以以强化学习成本的一小部分即可在推理基准上获得相同的性能。蒸馏推理他们利用蒸馏来训练Qwen3-8B-Base模型的数学推理能力，以Qwen3-32B为教学模型。 Tinker 目前支持教师模型 (Qwen3-32B) 和学生模型 (Qwen3-8B-Base)，因此您可以通过 Tinker 指南重现实验。异质政治蒸馏如上所述，所有实验都以异质政治蒸馏形式的中间训练开始，即对教师生成的示例数据集进行监督微调。数学推理中使用的数据集是OpenThoughts-3，是QwQ-32B（类似于Qwen3-32B的推理模型）产生的推理提示和响应的集合。研究人员使用 40 万个关键词全面细化了学生模型（Qwen3-8B-Base），并在 AIME’24 数学基准上取得了 60% 的分数。当然，LoRA可以用于训练，但当训练数据量较大时，其效果不如全调优。在所有情况下，性能都会以对数方式提高。提高性能的初始成本很低，但随后就会变得昂贵。在 50,000 到 100,000 个关键字的初始训练后，异同立构蒸馏 (SFT) 的 AIME’24 评分曲线遵循可预测的对数线性缩放曲线。我们观察到，大规模和高批量运行 SFT 会降低 LoRA 的性能，这与“LoRA 不后悔”的预测是一致的。研究人员将基于 40 万个关键词的微调模型视为控制点，然后尝试使用各种后期训练方法来进一步提高其性能。将 AIME’24 基准分数从 60% 提高到 70% 每种方法需要花费多少成本？默认的方法是调整单词以获得更多的指示，即继续异规蒸馏过程。基于对数线性趋势的外推，研究人员估计，在接受大约 200 万个单词线索的训练后，该模型将在 AIME’24 上获得 70% 的分数。这种推断假设缩放定律继续适用而不会停滞，这并非微不足道。然而，也有大规模异规蒸馏使8B模型性能提升70%以上的真实案例，例如OpenThoughts-3和DeepSeek-R1-0528-Qwen3-8B。该外推结果可用作异同立构精馏盈利能力的乐观估计。强化学习Qwen3白皮书指出，基于类似的SFT初始化模型和17,920 GPU小时的强化学习训练，模型在基准测试中的性能达到了67.6%。很难直接将该成本与蒸馏成本进行比较。然而，在 SFT 训练堆栈上执行综合时，成本大致相当于使用 200 万个策略性蒸馏的异构数据进行训练的成本关键词，假设理论假设。 Qwen 团队还报告称，同一策略的精炼在 AIME’24 中取得了 74.4% 的高分，而成本仅为强化学习的十分之一。这就是这项工作的灵感。研究人员尝试使用以下基本配置重现这一结果。同政治蒸馏作为异政治蒸馏或强化学习的替代方案，研究人员采用了上述同政治蒸馏方法。从在 400,000 个关键字 SFT 上训练的检查点开始，相同的策略蒸馏只需要大约 150 个步骤即可在 AIME’24 中实现 70% 的模型得分。额外的计算量是在 FLOP（浮点运算）训练中测量的。相同策略蒸馏的计算效率明显高于SFT，尤其是对于LoRA模型。对于rank=32，经过SFT后，LoRA性能落后于完全拟合13%，但经过蒸馏后采用相同的策略，差异缩小至仅6%。比较方法之间的计算成本并不简单，因为训练、采样和对数似然计算之间的成本比率可能根据实现的不同而有很大差异。然后以 FLOP 为单位计算成本，但这种计算方法不利于 GPU 可以有效并行化的方法。特别是，它高估了计算对数赔率的真实成本。我们发现，如果 SFT 数据集易于获得（例如 OpenThoughts-3 示例）或者其成本可以在多次训练中摊销，则基准测试成本可以节省 9 倍。在这种情况下，非策略训练中教学模型的FLOP是不计算成本的，但在相同的策略训练中会计算成本，因为需要运行监督模型来计算学生轨迹的对数概率。该计算可以以非常低的成本跨多个 GPU 并行化，结果GPU 时间成本节省近 18 倍。然而，通常需要为不存在异策略蒸馏数据集的新任务训练小型模型。如果将监督模型的全部成本包含在异质蒸馏中，即包含对监督模型进行采样的额外成本，则总成本降低约30倍。个性化蒸馏除了训练小型模型以在常见任务上实现高性能之外，蒸馏的另一个用例是个性化。例如，您可以在对话中遵循某种语气或输出格式，或者学习工具的使用和成本估算等功能。通常需要训练模型来获得这些行为，同时传授有关新领域的知识。同时进行这两项训练通常很困难，并且轻微的调整通常不足以实现此目标，因此需要进行大量的中级训练。学习基于新的训练后行为知识需要复杂的培训后过程，通常涉及专有数据和奖励模型。尽管这种方法可以在最先进的实验室中实现，但其他专家可能很难或无法复制。在本节中，我们展示了共政治提取可以有效地用于特殊的训练后行为。此方法也适用于持续学习或“试验训练”：在部署后更新模型，而不会降低基本性能。我们将在内部文档中使用中间训练过程中的模型作为示例。新知识的形成削弱了习得的行为。本研究从 Qwen3-8B 模型而不是基础模型开始。 Qwen3-8B 使用强化学习来培养充当助手所需的实用技能，例如遵循指令和推理。接受后期培训。先前的研究表明，由于这种类型的强化学习仅训练由于原始模型的子网络较多，因此当使用大量数据进一步训练网络时，这些特征可能会被削弱。他们研究了这种情况发生的程度以及如何恢复所需的行为。为了减少这种灾难性遗忘，中期训练中的一种常见方法是混合来自原始模型的 distribution.pre-trained 版本的“背景数据”。在这种情况下，研究人员无法访问 Qwen3 的预训练分布。这就是为什么我们考虑更强大但更昂贵的基准。我们从 Tulu3（一个涵盖广泛聊天和命令跟踪的数据集）中获取关键字，使用 Qwen3-8B 对它们进行重新采样，并将它们用作聊天的背景数据。 Qwen3-8B 采样的这种“相同策略”背景数据在整个中间训练过程中充当直接 KL 正则化器，强化了模型的原始行为。在训练中期，我们发现 Qwen3-8B 采样比 Qwen3-32B 更好地保留了聊天功能放大，突出数据源的敏感性。陈等人。对于相同的策略也发现了类似的 SFT 结果。研究人员推测，这种方法可能比直接访问原始预训练数据分布更有效，但代价是对大数据集进行采样。研究人员随后针对内部文档和聊天数据的不同组合比例调整了 Qwen3-8B。增加文档数据的比例直接提高了模型的知识水平。然而，组合至少 30% 的聊天数据保留了大部分遵循命令的能力，同时不分配权重保留了模型在 IF 评估中的原始性能。训练时后台扫描内部文档和聊天数据的比例。混合少量聊天数据可以防止灾难性的性能下降，但如果没有权重，则无法维持原始 IF 评估的性能。任何混合比例都会降低 PE微调期间 IF 评估的性能。大量的训练使得模特的专业能力难以持续提升。在所有数据混合比率的训练过程中，IF 评估分数都会下降。如果您使用线性学习率（如上图所示），性能下降最终将趋于平稳，并随着学习率的降低而开始缓慢恢复。然而，性能从未完全恢复。另一种常见的方法是使用 LoRA 来限制参数更新，从而减少灾难性遗忘的可能性。然而，这种方法仍然不足以维持 IF-eval 的性能，并且 LoRA 学到的知识较少。通过应用LoRA，完成后训练的Qwen3-8B模型不仅在进行中期个性化训练时学习到的知识较少，而且还忘记了其原始的训练后行为。 itpolicy的应用可以恢复训练后的行为。然后，修改内部文档后在实验中，研究人员试图恢复遵循模型指示的行为。这种行为最初是使用强化学习来训练的，这种方法既昂贵又脆弱。或者，研究人员使用该模型的早期版本 Qwen3-8B 作为主控，对 Tulu3 关键字进行了相同策略的提炼。请注意，此培训阶段与内部文档数据无关，其唯一目的是恢复遵循指示的能力。通过使用模型的早期版本作为老师来“重新唤醒”调整过程中丢失的功能，相同策略的精炼显示出持续学习的巨大潜力。研究人员可以在两个阶段之间交替：拟合新数据和提炼行为恢复，使模型能够随着时间的推移进行学习并保持知识最新。 Cobbe 等人之前已经研究过这种相交替方法。预印本：https://arxiv.org/abs/2009.04416 Fine-t 之后通过以 70:30 的比例混合内部文档数据和聊天数据，相同策略的精炼几乎完全恢复了模型在 IF-eval 中的性能，而不会造成任何知识损失。研究人员还在内部问答评估中观察到聊天功能与模型的“知识”表现之间存在一些积极的转移。中级培训后的特定领域表现（内部问答评估）和聊天表现（IF 评估）。中期训练会导致Qwen3-8B忘记后续的训练行为，但这些行为训练可以通过提炼相同的策略以低成本恢复，同时保留中期训练期间学到的额外知识。本质上，这次是用语言模型本身作为奖励模型，对那些高概率的行为进行奖励。这与逆强化学习（InverseRL）有关。换句话说，在假设的潜在偏好模型中，更可能的行为会导致响应更有利的奖励。从这个意义上说，任何指令调整的开源权重模型都可以用作奖励模型。您只需要访问compute_logprobs函数。蒸馏作为整合行为和知识的工具也在混合推理模型（Qwen3）和专家蒸馏等领域进行了研究。正如之前的研究结果所示，理想的策略学习ntico可以成为改进类似的基于蒸馏的“模型融合”方案的重要工具。预印本：https://arxiv.org/abs/2510.18874 对相同策略的集中监控的讨论：计算效率的显着提高。强化学习和相同策略蒸馏通过逆 KL 散度进行学习，并修剪基本策略内的动作空间。区别在于奖励的密度。从信息论的角度来看，强化学习每轮仅传输 O(1) 位信息。相反，这种组合允许 O(N) 位每次蒸馏期间要传输的信息。这里，N是令牌的数量。那么更密集的奖励能在多大程度上提高训练效率呢？会吗？研究人员在《LoRA withoutregardsos》一文中长期以来一直想知道这一点。这次从Qwen3-8B-Base（没有额外的SFT）进行实验，直接比较两者。在DeepMath数据集上进行强化学习的过程与LoRA Without Regret是一致的。研究人员使用 LoRA 等级 128。所得模型可作为蒸馏过程的教学模型。从使用强化学习（2）训练的模型中，将相同的策略提取到基础模型（1）中。结果表明，对于匹配模型架构（LoRA 分类 128），从相同的初始化状态开始，学习通过强化学习训练的策略仅需要相同策略蒸馏所需的梯度步数的 1/10 左右，相当于 50 到 100- 计算效率成倍提高。一般来说，所需的计算数量减少了 50 到 100 倍。通过重新训练应该在接近评估持续时间的上下文中进行训练（以便策略可以学习上下文约束并避免因格式错误而受到惩罚）。相比之下，即使在较短的上下文中，蒸馏也能有效学习，因为奖励信号在轨迹生成结束时不会发生显着变化。如果 SFT 初始化正确，则使用相同策略的蒸馏可以在每轮提供更多信息，因此即使批量大小小得多，它也能高效工作并减少梯度噪声。尽管使用程序监督训练强化学习模型通常很困难，但这些结果表明，作为宏观方向，程序监督和密集奖励可以将学习效率提高几个数量级。这与 Lightman andsu 之前的强化学习发现一致ch.蒸馏：有效复用数据，提高数据效率。对于专业人士来说，收集大量训练提示词数据集既困难又耗时。因此，研究人员希望能够在训练过程中多次重复使用关键字。使用强化学习时，尤其是在通用模型中，对相同的关键字进行多轮训练会导致模型记住最终答案。相比之下，提炼相同的策略可以最大限度地减少逆 KL 散度，并学习近似教师模型的整个分布，而不是简单地记住单个答案。这允许您从同一关键字生成和训练多个样本。研究人员重复了之前基于数学任务训练Qwen3-8B-Base的实验，但这次他们只使用从数据集中随机选择的wordkey。他们使用这个关键字训练 20 个连续步骤，每批包含 256 个轨迹，总共 5120 个评分序列。他们使用顺序方法在多个步骤中训练相同的关键字，这通常会导致过度拟合。虽然这种方法的计算效率自然较低，但仅使用该关键字训练后，模型的性能已接近主模型。在此示例中，对单个训练样本进行多个时期的训练足以让学生模型学习。 AIME’24 中教学模式的表现。强化学习：探索将相同策略升华到语义策略空间中，可以用更少的训练步骤重现通过强化学习实现的学习效果。对这个结果的一种解释是，与 BetweenPreviously 不同，强化学习本身在梯度更新步骤中不会消耗大量计算资源。强化学习的核心计算开销应该理解为“搜索”，即生成策略轨迹并分配学分、ra而不是“更新”本身。随机梯度下降预训练探索高维参数空间。预训练需要大量信息，提取起来非常困难。原因之一是每个网络的参数空间都有些独特。预训练所需的梯度更新步骤在计算上是昂贵且耗时的。相比之下，强化学习探索“语义策略”的空间。它应该被理解为探索的东西。在每一步中，强化学习都会尝试对之前发现的策略进行微调。我们没有探索参数空间，而是幸运地“偶然发现”了新策略。从一组现有权重中随机采样。一旦找到合适的策略，蒸馏就提供了学习该策略的捷径。提取相同的策略不需要对强化学习过程中的所有中间策略进行建模，而只需学习最终策略。如果你只关心最终策略（这在生产环境中很常见），您不需要花费计算资源对所有中间过程进行建模。让我们考虑一个类比。科学研究花费大量时间和资源来寻找答案并探索新想法。一旦发现结果，通过自然语言将其传达给其他人就会变得更加容易。相反，还有一些直观的身体技能，比如运动。这些技能很难教给别人，因为相关知识存在于一种只有我们才能轻松理解的“天生”语言（如肌肉记忆）中。体育运动只有通过反复练习才能学会。同策略学习：持续学习的强大工具从自定义蒸馏的角度来看，同策略蒸馏可以将经过特殊训练的行为重新引入模型中。这种能力可以推广到更广泛的持续学习任务，其中模型需要获取新知识dge 不影响现有功能。先前的研究表明，使用相同策略（RL）的学习比使用不同策略的学习产生的遗忘更少。然而，仅靠强化学习不足以支持持续学习，因为它只能塑造行为，而不能有效地传递新知识。如上所述，SFT（包括异质政治蒸馏）削弱了模型的原始行为，无法有效支持持续学习。下面是一个进一步探索这一点的简单示例：与之前一样，我们通过从 Tulu3 中采样关键字来构建数据集。采样型号为Qwen3-32B，温度设置为1.0，其他没有做任何改变。因此，Qwen3-32BSe的这个数据集预计系综的KL偏差为零。当我们在模型自己的样本数据集上运行 SFT 时会发生什么？我们发现，如果实际学习率大于零，则模型在测试后指令中会失败。性能是恶化！在 Qwen3-32B 样本上运行 SFT 本身会产生较差的性能。在我们的实验中，我们使用与定制部分相同的学习率，这是根据实际性能选择的。线性学习率可以防止直接 IF/KL 散度评估进一步衰减，但直到学习率降至零之前，性能无法完全恢复。一种可能的解释是，尽管 KL 散度的预期值为 0，但实际上每个有限手数的分布略有不同。对这些有限批次的训练将产生非零梯度更新，导致更新后的模型策略偏离其原始状态。随着时间的推移，这种自样本训练过程演变成离策略训练，导致与标准离策略训练相同的错误累积和长序列发散问题。由于同一政策的精炼始终保留在“政策中”并且模范教师是固定的，因此学生t 模型收敛到教师模型的理想行为，而不会像自蒸馏环境中的 SFT 那样出现任何性能下降。这使得共政治蒸馏很可能成为一种持续学习的工具。结论通过将学生模型的协同策略采样和教师模型的强化监控相结合，协同策略蒸馏解决方案可以以比最先进的高计算强化学习低得多的成本实现相同水平的功能。实现代码可以在 Tinker Guide 中找到。他们希望继续研究蒸馏的新应用、改进教师监督的新方法、提高数据效率和持续学习能力的新方法。 Thinking Machines 的使命是通过创建具有适应性和个性化的尖端人工智能模型来增强人们的能力。协作策略的精炼是实现这一宏伟目标的有力工具。参考资料：https://x.com/thinkymachines/status/1982856272023302322https://x.com/lilianweng/status/1982862795961184572ZFnwd
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复取消回复

近期文章

近期评论

归档

分类

强化学习的成本仅为十分之一。文莉思维机器聚焦Kwen黑科技

发表回复 取消回复

近期文章

近期评论

发表回复取消回复