Fineweb 训练进度更新 | AI生成和翻译
训练状态
配置: train_fineweb.py — 1.24亿参数,最大迭代次数=12000
最新进度: 迭代 6800 / 12000(约完成 57%)
- 训练损失:3.4861,验证损失:3.4225(在步骤 6500 处,最近一次评估)
- 损失平稳下降:运行期间从 10.99 降至 3.48
- 每次迭代约 9.34 秒,MFU 约 13–15%
预计完成时间: 剩余 5200 次迭代 × 约 9.34 秒/迭代 ≈ 13.5 小时 → 大致应于今天(4月30日)香港时间晚上 9–10 点结束。
检查点: /home/lzw/projects/nanoGPT/out-fineweb/ckpt.pt — 1.4 GB,最近保存于 06:42(步骤 6500)。当验证损失改善时,每 500 次迭代会覆盖写入。
注意:tmux 会话 0 和 1 均显示相同输出 — 实际只有一个 train.py 进程(PID 980082)在运行,附着于 pts/4。另一个会话很可能只是在查看同一日志。