训练完成并使用最佳检查点 | AI生成和翻译

Home 2026.04

训练在12000次迭代时顺利完成。总结如下:

最终损失值

损失曲线

训练状态

参考对比:nanoGPT的参考GPT-2(124M)复现在OpenWebText上经过约60万次迭代后达到约2.85的验证损失。当前训练仅使用其1/50的计算量,因此3.29的损失值符合预期——模型处于欠训练状态,而非训练失败。

最佳检查点:out-fineweb/(每次评估均保存——其中11500次迭代的保存点为最佳验证损失结果)。


Back Donate