训练中的对数概率惩罚

训练中的对数概率惩罚 | AI生成和翻译

首页 2026.06

图表展示的核心要点：

log P 是最严苛的部分。当模型对正确词元的预测概率 P = 0.01 时，log(0.01) = −4.6；当 P = 0.9 时，log(0.9) = −0.1。对数尺度对低置信度预测的惩罚远超线性尺度——而这正是训练中所需要的。

exp(L) 只是让它更可读。交叉熵损失 L ≈ 1.2 意味着 PPL ≈ 3.3，你可以将其理解为“模型的不确定性相当于每一步有 3 个等概率选项”。这比原始的 nats 数值直观得多。

关于你的在 MI300X 上运行的 GPT-2 760M 实验——你正在训练哪个数据集？当前的验证集 PPL 落在多少？

返回捐助