📌 一句话摘要
文章深度解读了在策略蒸馏(OPD)方法,该方法通过优雅融合强化学习与监督微调的优势,显著提升大语言模型训练的成本效率和对齐能力。
📝 详细摘要
本文详细剖析了由 Thinking Machines 公司深入分析和复现的在策略蒸馏(On-Policy Distillation, OPD)技术,旨在解决大模型后训练中能力、成本和对齐的“不可能三角”。文章指出,传统监督微调(SFT)和蒸馏易导致模型僵化,强化学习(RL)虽具探索能力但成本高昂。OPD 创新性地让学生模型在自身生成的真实轨迹上学习,并接受教师模型密集的逐 Token 指导,从而规避了 SFT 的复合错误和 RL 的低效。更令人惊讶的是,OPD 在总成本效率上甚至超越了 SFT,实现了 9-30 倍的提升,因为它极致的样本效率避免了海量数据“硬灌”和无效试错。OPD 的“优雅”在于其用简单的组合解决了复杂范式的问题,打破了传统认知壁垒,是模型训练领域一次重要的想象力飞跃。
💡 主要观点
-
在策略蒸馏(OPD)通过在学生自身轨迹上学习,解决了传统蒸馏的复合错误问题。
OPD 让学生模型在它实际可能犯错的状态下接受老师的密集指导,使其学会如何在错误发生时进行纠正,克服了离策略蒸馏的僵化问题。
-
OPD 巧妙融合强化学习与监督微调的优势,规避了两者各自的低效与僵化。
它拥有 RL 的探索精神(On-Policy 采样)和 SFT 的密集反馈(KL 散度监督),避免了 RL 稀疏奖励的低效和 SFT 完美数据下的僵化,无需训练奖励模型。
-
OPD 以高样本效率颠覆传统成本认知,实现远超 SFT 的训练总成本效益。
尽管单步成本较高,但 OPD 极高的样本效率意味着训练所需数据量大幅减少,尤其在模型后期提升阶段,总成本效益比 SFT 高出 9-30 倍。
💬 文章金句
- 研究人员渴望模型在整个过程中同时拥有强大的能力、高效的训练成本,以及可控的对齐。
- 揭示了一种被称为在策略蒸馏(On-Policy Distillation, OPD)的方法,试图破解这个不可能三角。
- 学生自己的真实分布(它自己会犯的错)上,受到来自老师每个 token 水平上的密集指导。这样它就会被训练成一个学习者。
- OPD 的总成本效率,甚至碾压了 SFT,达到了 9-30 倍之多。
- 这种用最简单的组合(On-Policy 采样 + KL 散度损失),去解决两个最复杂范式(SFT 和 RL)的难题,这才是 OPD 和它的前辈们最优雅的地方,是一次想象力的飞跃。
📊 文章信息
AI 评分:92
精选文章:是
来源:腾讯科技
作者:腾讯科技
分类:人工智能
语言:中文
阅读时间:41 分钟
字数:10044
标签:
大语言模型训练, 策略蒸馏, AI模型优化, 强化学习, 监督微调