训练完成并使用最佳检查点 | AI生成和翻译
训练在12000次迭代时顺利完成。总结如下:
最终损失值
- 训练集:3.3565 / 验证集:3.3308
- 最佳验证集:11500次迭代时达到3.2929(最终12000步时验证损失轻微上升至3.3308——可能属于噪声或过拟合的初始迹象;无论如何,11500次迭代的检查点是最佳选择)
损失曲线
- 起始值:10.99(随机初始化,约ln(50304))
- 快速下降:1000次迭代内从10.99降至4.39
- 持续下降直至约7000次迭代(验证损失3.42)
- 最后约5000次迭代仅带来约0.1的验证损失改进——收益递减明显
训练状态
- 训练与验证损失全程高度吻合(差距约0.05)→ 无明显过拟合
- 约9.34秒/次迭代,MFU约13–15%
- 总计观察约63亿词元(12000 × 524,288)
参考对比:nanoGPT的参考GPT-2(124M)复现在OpenWebText上经过约60万次迭代后达到约2.85的验证损失。当前训练仅使用其1/50的计算量,因此3.29的损失值符合预期——模型处于欠训练状态,而非训练失败。
最佳检查点:out-fineweb/(每次评估均保存——其中11500次迭代的保存点为最佳验证损失结果)。