翁荔称为“优雅”的在策略蒸馏,如何颠覆成本与效率的传统认知?|新论文解读

10/29/2025, 6:47:00 AM

📌 一句话摘要

文章深度解读了在策略蒸馏(OPD)方法,该方法通过优雅融合强化学习与监督微调的优势,显著提升大语言模型训练的成本效率和对齐能力。

📝 详细摘要

本文详细剖析了由 Thinking Machines 公司深入分析和复现的在策略蒸馏(On-Policy Distillation, OPD)技术,旨在解决大模型后训练中能力、成本和对齐的“不可能三角”。文章指出,传统监督微调(SFT)和蒸馏易导致模型僵化,强化学习(RL)虽具探索能力但成本高昂。OPD 创新性地让学生模型在自身生成的真实轨迹上学习,并接受教师模型密集的逐 Token 指导,从而规避了 SFT 的复合错误和 RL 的低效。更令人惊讶的是,OPD 在总成本效率上甚至超越了 SFT,实现了 9-30 倍的提升,因为它极致的样本效率避免了海量数据“硬灌”和无效试错。OPD 的“优雅”在于其用简单的组合解决了复杂范式的问题,打破了传统认知壁垒,是模型训练领域一次重要的想象力飞跃。

💡 主要观点

  1. 在策略蒸馏(OPD)通过在学生自身轨迹上学习,解决了传统蒸馏的复合错误问题。 OPD 让学生模型在它实际可能犯错的状态下接受老师的密集指导,使其学会如何在错误发生时进行纠正,克服了离策略蒸馏的僵化问题。
  2. OPD 巧妙融合强化学习与监督微调的优势,规避了两者各自的低效与僵化。 它拥有 RL 的探索精神(On-Policy 采样)和 SFT 的密集反馈(KL 散度监督),避免了 RL 稀疏奖励的低效和 SFT 完美数据下的僵化,无需训练奖励模型。
  3. OPD 以高样本效率颠覆传统成本认知,实现远超 SFT 的训练总成本效益。 尽管单步成本较高,但 OPD 极高的样本效率意味着训练所需数据量大幅减少,尤其在模型后期提升阶段,总成本效益比 SFT 高出 9-30 倍。

💬 文章金句

📊 文章信息

AI 评分:92
精选文章:
来源:腾讯科技
作者:腾讯科技
分类:人工智能
语言:中文
阅读时间:41 分钟
字数:10044
标签: 大语言模型训练, 策略蒸馏, AI模型优化, 强化学习, 监督微调
阅读完整文章

阅读原文 QR Code 返回目录