FineWeb GPT-2 训练进度报告

FineWeb GPT-2 训练进度报告 | AI生成和翻译

首页 2026.05

进程：PID 1200744，python3.11 -u train.py config/train_fineweb_gpt3.py --compile=False 开始时间：2026-05-12 11:49 → 已运行 ≈ 45h 52m

	当前	目标	剩余
iter	~14,570	19,073	~4,500 (24%)
tokens	~7.64 B	~10.0 B	~2.36 B

Tokens/步 = 524,288（bs 4 × block 1024 × grad_accum 128）

step  5000 → 3.260
step 10000 → 3.112
step 12000 → 3.087
step 13000 → 3.035
step 14000 → 3.012   ← 迄今最佳
step 14500 → 3.030

验证损失在 3.01–3.06 区间趋于平缓；训练损失仍在下行（14500 步时为 3.04）。余弦学习率约为 1.4e-4（从 6e-4 → 最小值 6e-5），因此最后 4.5k 步将经历大部分剩余衰减。

未保留“仅最佳”检查点——第 14500 步（验证损失 3.030）的检查点覆盖了第 14000 步更优的结果（验证损失 3.012）。如果您关心最佳验证损失，可考虑在最后阶段将 always_save_checkpoint=False，或在一次好的 eval 后备份 ckpt.pt。
配置中的注释写道“向约 190k 步推进以完成完整 100B”——您正在执行约 10B 的短跑，按计划今晚结束。

需要我关注训练完成，或是备份当前的检查点吗？

返回捐助