策略内蒸馏详解

策略内蒸馏详解 | AI生成和翻译

首页 2026.05

问题：什么是On-Policy Distillation？

回答：

On-Policy Distillation 是一种强化学习技术，其中 学生策略被训练用于模仿教师策略，使用的数据来自于学生自身当前行为生成的数据（即on-policy数据），而非依赖固定的离线数据集。

在标准的知识蒸馏中，学生模型通过教师模型的输出进行学习（通常基于固定数据集）。

On-Policy Distillation 的关键区别在于：

因此，学习过程发生在 模型当前正体验的同分布数据 上。

在强化学习中：

On-policy蒸馏继承了这一特性：

学生始终在其实际生成的轨迹上进行训练，从而避免了分布不匹配问题。

这通常在动态环境中能带来更稳定的学习过程。

在每次训练迭代中：

可以将其类比为：

学习者（学生）实时练习驾驶，驾驶教练（教师）对每一步操作提供反馈，但反馈仅基于学习者当前正在进行的操作——而非基于过去学习者的录制数据集。

On-policy蒸馏是一种训练学生策略的方法，利用教师的指导，而训练数据则持续从学生自身与环境的当前交互中生成。

如果需要，我也可以直接将其与离线蒸馏、模仿学习及PPO风格的RLHF进行比较，这将更清晰地展现它们的区别。

返回捐助