幂律损失曲线预测 | AI生成和翻译
将幂律拟合到迄今为止的验证损失曲线。使用11个数据点(迭代1000→6000),在两种合理的 L_∞ 选择下,L(n) = L_∞ + A · n^(-α) 拟合结果一致:
拟合A: L(n) = 2.7 + 42.4 / n^0.5 (残差~0.05)
拟合B: L(n) = 2.5 + 24.4 / n^0.4 (残差~0.05)
两者在预测范围内的差异约为0.02,因此预测对选择不敏感。预测结果:
| 迭代 | 拟合A | 拟合B | 预测值 | 与迭代6000的差值(3.247) |
|---|---|---|---|---|
| 7,500 | 3.19 | 3.20 | ~3.19 | -0.06 |
| 10,000 | 3.12 | 3.11 | ~3.11 | -0.14 |
| 12,500 | 3.08 | 3.05 | ~3.06 | -0.19 |
| 15,000 | 3.05 | 3.01 | ~3.03 | -0.22 |
| 19,073 | 3.01 | 2.96 | ~2.98 | -0.27 |
合理性检查:与最近一次评估间差值(4500→6000平均约0.025/500次迭代)对比,从迭代6000起积分隐含的1/√n减速,到19,073时总下降约0.27——与两个拟合均匹配。
要点:
- 之前“迭代10,000时~3.0–3.1”的预测略显悲观——实际更接近 3.11。
- 完整运行达到 ~2.96–3.01,中心估计为 2.98。
- 曲线在迭代~12,000后急剧变平:从12,500到19,073(迭代次数增加52%)仅获得约0.08的损失下降。收益递减变得剧烈。
注意事项:
- 幂律假设学习率调度无间断。如果余弦衰减仍在生效,后半段可能比此预测好0.02–0.05。
- 迭代19,073处的95%置信区间大致为 2.93–3.04——拟合很紧密,但评估间噪声为±0.015。