策略内蒸馏详解 | AI生成和翻译

Home 2026.05

问题:什么是On-Policy Distillation?

回答:

On-Policy Distillation 是一种强化学习技术,其中 学生策略被训练用于模仿教师策略,使用的数据来自于学生自身当前行为生成的数据(即on-policy数据),而非依赖固定的离线数据集。


1. 核心思想

在标准的知识蒸馏中,学生模型通过教师模型的输出进行学习(通常基于固定数据集)。

On-Policy Distillation 的关键区别在于:

因此,学习过程发生在 模型当前正体验的同分布数据 上。


2. 为何“on-policy”重要

在强化学习中:

On-policy蒸馏继承了这一特性:

学生始终在其实际生成的轨迹上进行训练,从而避免了分布不匹配问题。

这通常在动态环境中能带来更稳定的学习过程。


3. 典型设置

在每次训练迭代中:

  1. 学生策略与环境交互 → 收集轨迹数据
  2. 教师策略提供:

    • 动作概率(软标签),或
    • 修正后的动作,或
    • 价值估计
  3. 学生最小化以下形式的损失函数:

    • 学生与教师分布之间的KL散度
    • 或基于教师动作的交叉熵
  4. 更新学生策略的参数
  5. 使用新的on-policy rollouts重复上述过程

4. 简单理解

可以将其类比为:

学习者(学生)实时练习驾驶,驾驶教练(教师)对每一步操作提供反馈,但反馈仅基于学习者当前正在进行的操作——而非基于过去学习者的录制数据集。


5. 优势


6. 局限


7. 应用场景


8. 一句话总结

On-policy蒸馏是一种训练学生策略的方法,利用教师的指导,而训练数据则持续从学生自身与环境的当前交互中生成。


如果需要,我也可以直接将其与离线蒸馏、模仿学习及PPO风格的RLHF进行比较,这将更清晰地展现它们的区别。


Back Donate