FineWeb GPT-2 训练进度报告 | AI生成和翻译

Home 2026.05

训练状态:out-fineweb-gpt3(FineWeb-Edu 上的 GPT-2 124M)

进程:PID 1200744,python3.11 -u train.py config/train_fineweb_gpt3.py --compile=False 开始时间:2026-05-12 11:49 → 已运行 ≈ 45h 52m

进度

  当前 目标 剩余
iter ~14,570 19,073 ~4,500 (24%)
tokens ~7.64 B ~10.0 B ~2.36 B

Tokens/步 = 524,288(bs 4 × block 1024 × grad_accum 128)

预计完成时间

验证损失曲线

step  5000 → 3.260
step 10000 → 3.112
step 12000 → 3.087
step 13000 → 3.035
step 14000 → 3.012   ← 迄今最佳
step 14500 → 3.030

验证损失在 3.01–3.06 区间趋于平缓;训练损失仍在下行(14500 步时为 3.04)。余弦学习率约为 1.4e-4(从 6e-4 → 最小值 6e-5),因此最后 4.5k 步将经历大部分剩余衰减。

运行健康状态

值得标记的注意事项/决策

需要我关注训练完成,或是备份当前的检查点吗?


Back Donate