FineWeb GPT-2 训练进度报告 | AI生成和翻译
训练状态:out-fineweb-gpt3(FineWeb-Edu 上的 GPT-2 124M)
进程:PID 1200744,python3.11 -u train.py config/train_fineweb_gpt3.py --compile=False
开始时间:2026-05-12 11:49 → 已运行 ≈ 45h 52m
进度
| 当前 | 目标 | 剩余 | |
|---|---|---|---|
| iter | ~14,570 | 19,073 | ~4,500 (24%) |
| tokens | ~7.64 B | ~10.0 B | ~2.36 B |
Tokens/步 = 524,288(bs 4 × block 1024 × grad_accum 128)
预计完成时间
- ~11.10 秒/iter + 每 500 次 eval 额外 ~18 秒
- 4,500 × 11.10 + 9 × 18 ≈ 剩余 13.9 小时
- 墙钟完成时间:~2026-05-14 23:30 HKT(今晚)
验证损失曲线
step 5000 → 3.260
step 10000 → 3.112
step 12000 → 3.087
step 13000 → 3.035
step 14000 → 3.012 ← 迄今最佳
step 14500 → 3.030
验证损失在 3.01–3.06 区间趋于平缓;训练损失仍在下行(14500 步时为 3.04)。余弦学习率约为 1.4e-4(从 6e-4 → 最小值 6e-5),因此最后 4.5k 步将经历大部分剩余衰减。
运行健康状态
- GPU:100% 占用,7.5/12.3 GB,65 °C,208 W — 正常
- 磁盘:664G / 1.8T 已用 — 正常
- MFU 约 12.86% 稳定(偏低因为
--compile=False) always_save_checkpoint=True→ ckpt.pt 每 500 步覆盖保存(上次保存 09:23,1.4 GB)
值得标记的注意事项/决策
- 未保留“仅最佳”检查点——第 14500 步(验证损失 3.030)的检查点覆盖了第 14000 步更优的结果(验证损失 3.012)。如果您关心最佳验证损失,可考虑在最后阶段将
always_save_checkpoint=False,或在一次好的 eval 后备份ckpt.pt。 - 配置中的注释写道“向约 190k 步推进以完成完整 100B”——您正在执行约 10B 的短跑,按计划今晚结束。
需要我关注训练完成,或是备份当前的检查点吗?