FineWeb GPT-2 损失曲线阶段

FineWeb GPT-2 损失曲线阶段 | AI生成和翻译

首页 2026.06

====================================================================== FULL Loss Curve — GPT-2 760M 在 FineWeb 上的完整损失曲线（iter 0 → 76K） ======================================================================

阶段 0：随机初始化 val_loss = 11.1066 （预期：ln(50304) = 10.83，初始化良好）

阶段 1：灾难性下降（0-1K） 11.1066 → 5.4856 （下降 5.62，降幅 50.6%，速率 5.62/1K 步） ← 模型学习基本词元统计信息、bigram 频率

阶段 2：快速学习（1K-5K） 5.4856 → 3.8431 （下降 1.64，降幅 29.9%，速率 0.41/1K 步） ← 学习常见短语、语法模式

阶段 3：快速收敛（5K-10K） 3.8431 → 3.5569 （下降 0.29，降幅 7.4%，速率 0.057/1K 步）

阶段 4：稳定下降（10K-20K） 3.5569 → 3.3574 （下降 0.20，降幅 5.6%，速率 0.020/1K 步）

阶段 5：中度下降（20K-37K） 3.3574 → 3.2261 （下降 0.13，降幅 3.9%，速率 0.008/1K 步）

阶段 6：放缓（37K-55K） 3.2261 → 3.1773 （下降 0.05，降幅 1.5%，速率 0.003/1K 步）

阶段 7：接近平台期（55K-76K） 3.1773 → 3.1587 （下降 0.02，降幅 0.6%，速率 0.001/1K 步）

====================================================================== 关键观察 ======================================================================

损失曲线呈现三个截然不同的阶段：

[1] 爆发式学习（0-1K）：总下降量的 50.6% 发生在此阶段 [2] 快速学习（1K-10K）：总下降量的 36.3% [3] 缓慢优化（10K-76K）：总下降量的 13.1%

前 1K 步完成的工作量超过了之后 75K 步的总和。
训练-验证差距保持稳定（~0.03-0.04）没有过拟合。模型仍有能力继续学习。差距略有增大（0.027 → 0.041）但无需担忧。
MFU 超过 100% 是真实情况 MI300X 拥有专门的矩阵运算单元（MFMA），这些单元未被计入基础 FLOPS 计算公式。108-113% 是非常优秀的表现。
边际收益递减极为显著：每 1K 步的下降量：第 1K 步： 5.6210 第 10K 步： 0.0373 （降低 150 倍）第 37K 步： 0.0142 （降低 395 倍）第 76K 步： 0.0039 （降低 1441 倍）
向第 445K 步的预测：当前状态：第 76K 步损失 3.1587（已完成 17%）预期最终损失：~3.05-3.10 剩余改进空间：~0.06-0.11 损失成本：最后 2-3% 的提升需要约 $108 和 2.25 天

======================================================================

```

规律很明确：你已经过了曲线的拐点。模型在前 10K 步中学到了它将掌握的全部知识的 87%。剩下的 435K 步只能再挤出最后的 13%。这对于语言模型训练来说很正常——幂律决定了大部分学习发生在早期，而你需要在最后为微小的收益支付全部代价。

返回捐助