代码损失预计降低 | AI生成和翻译

Home 2026.06

当前状态:迭代 70,700 / 427,000(完成 16.6%):

第 70,000 步检查点:
  训练损失:2.1042
  验证损失:2.0817  (历史最佳,较第 14,000 步的 5.87 有所下降)

速度:621 毫秒/步,MFU 利用率约 14.4%
预计剩余时间:约 62 小时(约 2.5 天)

你观察得没错——损失值确实远低于 fineweb-edu 文本数据集的结果。这是预期现象,而非程序错误:

代码本质上比自然语言具有更高可预测性:

对比数据: GPT-2 124M 在 WebText(自然文本)上的验证损失: 约 2.85 GPT-2 124M 在 FineWeb-Edu 上的验证损失: 约 3.0-3.2 本次基于 GitHub 代码的运行结果: 约 2.08

较低的损失值不代表”模型更优秀”,而是说明代码具有更低的单次标记熵值。模型学习效果良好,且损失值仍在持续下降。预计训练结束时损失值将稳定在 1.8-1.9 区间。


Back Donate