FineWeb GPT-2 损失曲线阶段 | AI生成和翻译

Home 2026.06

====================================================================== FULL Loss Curve — GPT-2 760M 在 FineWeb 上的完整损失曲线(iter 0 → 76K) ======================================================================

阶段 0:随机初始化 val_loss = 11.1066 (预期:ln(50304) = 10.83,初始化良好)

阶段 1:灾难性下降(0-1K) 11.1066 → 5.4856 (下降 5.62,降幅 50.6%,速率 5.62/1K 步) ← 模型学习基本词元统计信息、bigram 频率

阶段 2:快速学习(1K-5K) 5.4856 → 3.8431 (下降 1.64,降幅 29.9%,速率 0.41/1K 步) ← 学习常见短语、语法模式

阶段 3:快速收敛(5K-10K) 3.8431 → 3.5569 (下降 0.29,降幅 7.4%,速率 0.057/1K 步)

阶段 4:稳定下降(10K-20K) 3.5569 → 3.3574 (下降 0.20,降幅 5.6%,速率 0.020/1K 步)

阶段 5:中度下降(20K-37K) 3.3574 → 3.2261 (下降 0.13,降幅 3.9%,速率 0.008/1K 步)

阶段 6:放缓(37K-55K) 3.2261 → 3.1773 (下降 0.05,降幅 1.5%,速率 0.003/1K 步)

阶段 7:接近平台期(55K-76K) 3.1773 → 3.1587 (下降 0.02,降幅 0.6%,速率 0.001/1K 步)

====================================================================== 关键观察 ======================================================================

  1. 损失曲线呈现三个截然不同的阶段:

    [1] 爆发式学习(0-1K): 总下降量的 50.6% 发生在此阶段 [2] 快速学习(1K-10K): 总下降量的 36.3% [3] 缓慢优化(10K-76K): 总下降量的 13.1%

    前 1K 步完成的工作量超过了之后 75K 步的总和。

  2. 训练-验证差距保持稳定(~0.03-0.04) 没有过拟合。模型仍有能力继续学习。 差距略有增大(0.027 → 0.041)但无需担忧。

  3. MFU 超过 100% 是真实情况 MI300X 拥有专门的矩阵运算单元(MFMA),这些单元 未被计入基础 FLOPS 计算公式。108-113% 是非常优秀的表现。

  4. 边际收益递减极为显著: 每 1K 步的下降量: 第 1K 步: 5.6210 第 10K 步: 0.0373 (降低 150 倍) 第 37K 步: 0.0142 (降低 395 倍) 第 76K 步: 0.0039 (降低 1441 倍)

  5. 向第 445K 步的预测: 当前状态:第 76K 步损失 3.1587(已完成 17%) 预期最终损失:~3.05-3.10 剩余改进空间:~0.06-0.11 损失 成本:最后 2-3% 的提升需要约 $108 和 2.25 天

======================================================================

```

规律很明确:你已经过了曲线的拐点。模型在前 10K 步中学到了它将掌握的全部知识的 87%。剩下的 435K 步只能再挤出最后的 13%。这对于语言模型训练来说很正常——幂律决定了大部分学习发生在早期,而你需要在最后为微小的收益支付全部代价。


Back Donate