FineWeb GPT-2模型训练总结 | AI生成和翻译

Home 2026.04

状态: 运行中,正常,约 72% 完成。启动时间 ~2026- 04-29 13:46 (tmux session 0)。

配置 (config/train_fineweb.py)

参数
模型 12L / 12H / 768 嵌入,无偏置,丢弃率 0 — 1.2359 亿参数
块大小 1024
批次 8 × 64 梯度累积 = 有效 512 序列 → 每次迭代 524,288 个词元
优化器 AdamW 融合,学习率 3e-4 → 3e-5 余弦,预热 500,β2=0.99,权重衰减 0.1
调度 最大迭代次数 = 12,000 (学习率衰减迭代次数 = 12,000)
评估 每 500 次迭代评估一次,200 批次,每次评估都保存检查点 (always_save_checkpoint=True)
编译 开启
数据集 本地 fineweb

吞吐量

损失曲线 (每 500 次迭代验证)

步数  训练损失  验证损失
 500   5.4508    5.5082
1000   4.3793    4.3908
2000   3.9059    3.8516
3000   3.7440    3.6908
4000   3.6282    3.5831
5000   3.5656    3.4789
6000   3.5130    3.4665   ← 轻微平台期
7000   3.4670    3.4154
7500   3.4410    3.3677
8000   3.4243    3.3951   ← 小幅波动
8500   3.4017    3.3534   ← 最新

当前状态

备注 / 风险标识


Back Donate