机器学习中的Kullback-Leibler散度 | AI生成和翻译

Home 2026.05

问题:这里的 KL 是什么意思?

答案:

这里的 KL 指代 Kullback–Leibler 散度,一种衡量两个概率分布之间差异的方法。


1. 先直观理解

假设有两个模型在预测行为:

KL 散度回答的是:

“如果用一个分布去近似另一个分布,我会损失多少信息?”

因此,它是一种 类似距离的概率分布度量(但不对称,也不是真正的距离度量标准)。


2. 形式化定义

对于两个分布 ( P ) 和 ( Q ):

[ \mathrm{KL}(P | Q) = \sum_x P(x)\log \frac{P(x)}{Q(x)} ]

或连续形式:

[ \mathrm{KL}(P | Q) = \int P(x)\log \frac{P(x)}{Q(x)} dx ]


3. 关键特性

(1) 不对称性很重要

[ \mathrm{KL}(P | Q) \neq \mathrm{KL}(Q | P) ]

这就是为什么人们会区分 前向 KL 与反向 KL


(2) 始终 ≥ 0

[ \mathrm{KL}(P | Q) \ge 0 ]

仅当两个分布完全相同时才为零。


4. 在机器学习/强化学习中的直观理解

在你提到的情况下(知识蒸馏 / 策略):

那么 KL 衡量的是:

学生模型在多大程度上未能匹配教师模型的行为概率


5. 为何在知识蒸馏中重要

在训练模型时:


6. 简单类比

想象你猜测朋友的选择:


7. 一句话总结

KL 散度衡量两个概率分布的差异程度,在机器学习中,它用于量化学生模型与教师模型之间的差异。


如果你有兴趣,我也可以解释为什么 KL 会出现在 RLHF、PPO、扩散模型和变分推断 中——它实际上是现代机器学习的一个核心基础构件。


Back Donate