翁荔称为“优雅”的在策略蒸馏，如何颠覆成本与效率的传统认知？

📌 一句话摘要

文章深度解读了在策略蒸馏（OPD）方法，该方法通过优雅融合强化学习与监督微调的优势，显著提升大语言模型训练的成本效率和对齐能力。

📝 详细摘要

本文详细剖析了由 Thinking Machines 公司深入分析和复现的在策略蒸馏（On-Policy Distillation， OPD）技术，旨在解决大模型后训练中能力、成本和对齐的“不可能三角”。文章指出，传统监督微调（SFT）和蒸馏易导致模型僵化，强化学习（RL）虽具探索能力但成本高昂。OPD 创新性地让学生模型在自身生成的真实轨迹上学习，并接受教师模型密集的逐 Token 指导，从而规避了 SFT 的复合错误和 RL 的低效。更令人惊讶的是，OPD 在总成本效率上甚至超越了 SFT，实现了 9-30 倍的提升，因为它极致的样本效率避免了海量数据“硬灌”和无效试错。OPD 的“优雅”在于其用简单的组合解决了复杂范式的问题，打破了传统认知壁垒，是模型训练领域一次重要的想象力飞跃。

💡 主要观点

在策略蒸馏（OPD）通过在学生自身轨迹上学习，解决了传统蒸馏的复合错误问题。 OPD 让学生模型在它实际可能犯错的状态下接受老师的密集指导，使其学会如何在错误发生时进行纠正，克服了离策略蒸馏的僵化问题。
OPD 巧妙融合强化学习与监督微调的优势，规避了两者各自的低效与僵化。 它拥有 RL 的探索精神（On-Policy 采样）和 SFT 的密集反馈（KL 散度监督），避免了 RL 稀疏奖励的低效和 SFT 完美数据下的僵化，无需训练奖励模型。
OPD 以高样本效率颠覆传统成本认知，实现远超 SFT 的训练总成本效益。 尽管单步成本较高，但 OPD 极高的样本效率意味着训练所需数据量大幅减少，尤其在模型后期提升阶段，总成本效益比 SFT 高出 9-30 倍。

💬 文章金句

研究人员渴望模型在整个过程中同时拥有强大的能力、高效的训练成本，以及可控的对齐。
揭示了一种被称为在策略蒸馏（On-Policy Distillation， OPD）的方法，试图破解这个不可能三角。
学生自己的真实分布（它自己会犯的错）上，受到来自老师每个 token 水平上的密集指导。这样它就会被训练成一个学习者。
OPD 的总成本效率，甚至碾压了 SFT，达到了 9-30 倍之多。
这种用最简单的组合（On-Policy 采样 + KL 散度损失），去解决两个最复杂范式（SFT 和 RL）的难题，这才是 OPD 和它的前辈们最优雅的地方，是一次想象力的飞跃。

📊 文章信息

AI 评分：92

精选文章：是

来源：腾讯科技

作者：腾讯科技

分类：人工智能

语言：中文

阅读时间：41 分钟

字数：10044

标签：大语言模型训练, 策略蒸馏, AI模型优化, 强化学习, 监督微调

阅读完整文章