大语言模型训练中低困惑度的含义

大语言模型训练中低困惑度的含义 | AI生成和翻译

首页 2026.06

问题： 在LLM训练中，低PPL（困惑度）意味着什么，为什么它很重要？

回答：

困惑度本质上是指数化的交叉熵损失：

PPL = exp(L) = exp( -1/N * Σ log P(x_i | x_<i) )

因此低PPL = 模型对实际下一个token赋予高概率 = 对数据拟合更好。

每个token的交叉熵损失：

L = -1/N * Σ_{i=1}^{N} log P_θ(x_i | x_1, ..., x_{i-1})

PPL = exp(L)。如果PPL = 10，则模型相当于在每一步从10个等概率的token中随机选择时那样“困惑”。

# nanoGPT风格
loss = F.cross_entropy(logits.view(-1, vocab_size), targets.view(-1))
ppl = torch.exp(loss)  # 就是这样

训练期间低PPL意味着：

你问的是代码PPL。代码与自然语言相比具有不同的特性：

对于CodeLlama/DeepSeek-Coder，它们更侧重于HumanEval pass@k而非仅看PPL——因为低PPL并不总意味着良好的代码生成。

在nanoGPT中，你会看到它同时记录为loss和可选的ppl = exp(loss)。它们信息相同，只是尺度不同。损失在梯度计算中更有用；PPL在解释“模型在多少个选择之间感到困惑”时更具可读性。

返回捐助