训练进度与预计完成时间 | AI生成和翻译

Home 2026.04

以下是对运行训练和预计完成时间的分析。

运行状态

当前使用的配置 (config/train_fineweb.py)

   
dataset fineweb
model 12L / 12H / 768d, ~1.236 亿参数
block_size 1024
batch / grad_accum 8 × 64 → 有效批次 512 序列 → 每迭代 524,288 个token
max_iters / lr_decay_iters 12000
warmup 500
lr 3e-4 → 3e-5
eval_interval 500 (always_save_checkpoint=True)
compile True

因此,训练完成时的总 token 数 ≈ 12000 × 524,288 ≈ 62.9 亿个token (注释中的 “~30 亿” 已过时)。

损失趋势

step    train    val
0       10.997   10.991
500      5.451    5.508
1000     4.379    4.391
1500     4.063    4.010
2000     3.906    3.852
2500     3.813    3.774
3000     3.744    3.691

仍以每 500 步约下降 0.07 的速度减少,且验证损失 < 训练损失 —— 状态健康,无过拟合迹象。仍有足够下降空间:在 FineWeb 规模的数据上,一个 125M 的 GPT-2 模型预期最终会稳定在验证损失约 3.0–3.1。

预计何时完成?

下一个检查点保存将在第 3500 步触发,约等于迭代次数 3290 + 210 → 从现在起约 33 分钟后 (约 22:53)。

值得注意的事项

您希望我继续监控并在下一个检查点时通知您,还是从当前检查点采样以检查生成效果?


Back Donate