机器学习中的Kullback-Leibler散度

机器学习中的Kullback-Leibler散度 | AI生成和翻译

首页 2026.05

问题：这里的 KL 是什么意思？

答案：

这里的 KL 指代 Kullback–Leibler 散度，一种衡量两个概率分布之间差异的方法。

假设有两个模型在预测行为：

KL 散度回答的是：

“如果用一个分布去近似另一个分布，我会损失多少信息？”

因此，它是一种 类似距离的概率分布度量（但不对称，也不是真正的距离度量标准）。

对于两个分布 ( P ) 和 ( Q )：

[ \mathrm{KL}(P | Q) = \sum_x P(x)\log \frac{P(x)}{Q(x)} ]

或连续形式：

[ \mathrm{KL}(P | Q) = \int P(x)\log \frac{P(x)}{Q(x)} dx ]

[ \mathrm{KL}(P | Q) \neq \mathrm{KL}(Q | P) ]

这就是为什么人们会区分 前向 KL 与反向 KL。

[ \mathrm{KL}(P | Q) \ge 0 ]

仅当两个分布完全相同时才为零。

在你提到的情况下（知识蒸馏 / 策略）：

那么 KL 衡量的是：

学生模型在多大程度上未能匹配教师模型的行为概率

在训练模型时：

想象你猜测朋友的选择：

KL 散度衡量两个概率分布的差异程度，在机器学习中，它用于量化学生模型与教师模型之间的差异。

如果你有兴趣，我也可以解释为什么 KL 会出现在 RLHF、PPO、扩散模型和变分推断 中——它实际上是现代机器学习的一个核心基础构件。

返回捐助