检查点差异与训练健康状况

检查点差异与训练健康状况 | AI生成和翻译

首页 2026.06

问题： 解释训练运行状态——检查点与实时 tmux 的不一致、训练健康状况，以及剩余约 100k 步的预期。

答案：

发生了什么：崩溃/重启模式

不一致的原因很简单。训练进行到迭代 350k，某些事件导致了中断（OOM、SIGKILL、AMD 云上的节点抢占等），然后运行脚本重新加载了最近的评估检查点——第 325k 步，验证损失 2.7892——而不是第 350k 检查点。因此你损失了约 25k 步的计算量，正在重新运行那个区间。

为什么是 325k 而不是 350k？很可能是因为 eval_interval 检查点与“最佳”检查点是分开保存的。第 350k 的 ckpt.pt 是最佳验证损失检查点（当时损失 2.92），而 325k 则是一次周期性评估保存。重启逻辑可能选择了最近的评估检查点，恰好是 325k。

关键影响： 第 325k 步的验证损失 2.7892 优于已保存 ckpt.pt 中的 2.92。这意味着实时运行在模型质量上实际上领先于检查点。不要从 ckpt.pt 恢复——让它继续运行。

训练健康状况分析

损失曲线——对于一个 124M 非嵌入 GPT-2 规模的模型来说完全正常：

第 0 步:      10.87   (随机初始化，约等于 log(50257) ≈ 10.82 — 几乎完美)
第 25k 步:    ~3.6    (快速早期下降)
第 325k 步:   2.7892  (验证损失，当前最佳)

第 0 步损失匹配 log(词表大小) 是个好迹象——权重初始化正确，没有病态启动。

学习率——你正处于余弦退火的深处。如果峰值学习率为 6e-4，现在大约是 1e-4，说明已经过了进度表的 80%。公式：

lr(t) = lr_min + 0.5 * (lr_max - lr_min) * (1 + cos(π * t/T))

在 t=325k, T=427k 时：cos(π * 325/427) ≈ cos(2.39) ≈ -0.73，因此学习率接近底部。这在意料之中——优化器现在正在采取微小而精确的步长。

MFU 14.44% 在 MI300X 上偏低。MI300X 的理论峰值约为 383 TFLOPS（bf16）。在 14.44% 的利用率下，你获得了约 55 TFLOPS 的有效性能。对于一个使用小批量的 124M 模型，这是典型的——模型太小，无法饱和 HBM 带宽。你需要更大的批量或梯度累积来提高 MFU。对这个运行来说不是问题，只是背景信息。

621ms/步的稳定性——没有退化意味着没有内存压力累积，没有热节流，没有需要回退的梯度爆炸。很可靠。

接下来约 100k 步会做什么

由于余弦学习率接近底部，你处于“精调”阶段。损失曲线在这里趋于平坦——根据数据质量和调度，最终可能从 2.79 下降到 2.65 范围。剩余的改进来自：

数据覆盖——模型看到 14B token 语料库的尾部，填补分布中的空隙
细粒度权重更新——极小的学习率意味着不会过冲，优化器将权重收敛到一个局部最小值

你不会得到什么：显著的损失下降。陡峭的下降是在第 0-100k 步。你已经过了那个阶段。

预计完成时间： 100k 步 × 621ms = 约 17.3 小时。考虑到 AMD 云大约每小时 $2，完成需要用大约 $35。如果你之前在这个运行上还没有投入 $100+，那这是值得的——验证损失 2.79 的模型明显优于 2.92。

实际后续步骤

# 验证实时运行的检查点是否正常保存
ls -lth /path/to/checkpoints/ | head -5

# 观察验证损失进展
grep "val loss" nanoGPT_train.log | tail -20

# 确认如果再次崩溃时能否正确恢复
# 查找：iter_num, best_val_loss in the checkpoint
python -c "import torch; ck=torch.load('ckpt.pt'); print(ck['iter_num'], ck['best_val_loss'])"

有一件事值得检查：确保设置了 always_save_checkpoint = True 或等效选项，这样每个评估检查点都会被保存，而不仅仅是最佳验证损失。这样未来在 400k 步崩溃时，就不会回滚到 325k 了。

返回捐助