损失在Chinchilla最优值之外降低。 | AI生成和翻译

Home 2026.06

问题: 为什么即使训练量超出 Chinchilla 最优值 45.8 倍(286M 参数对应 13.1B tokens,而最优比例为 20:1),损失仍在持续下降?


回答

你混淆了两个不同的概念:计算最优缩放(Chinchilla)和损失实际趋于平缓的时机。它们不是一回事。

核心动态

Chinchilla 最优是关于资源分配,而非饱和问题。 它回答的是:“给定固定计算预算,什么样的模型/数据划分效率最高?” 答案是大约 20:1 的 token/参数比。但这并不意味着超过该比例后损失就会停止下降——它只说明你计算效率降低(本可以训练一个更大的模型但训练步数更少)。

你的模型损失仍然在下降,原因如下:

1. 模型容量过剩

你的 286M 模型拥有 12 层 × 6 个注意力头,尚未达到饱和。学习曲线大致如下:

loss = a / (tokens)^b + noise

其中在该规模下 b ≈ 0.08-0.10(基于经验,并非精确解析值)。损失会平滑地下降——它不会遇到硬性天花板。在 85 亿 token 阶段(Phase 1),你仍处于该曲线的陡峭部分。

恢复训练时的验证 bpb(0.810)表明模型仍有泛化能力。如果过拟合,验证 bpb 会显著高于训练损失。但事实并非如此。

2. 数据多样性 » 模型容量

使用 BPE 词表(32K token)和 2K 上下文窗口,即使经过完全洗牌,面对 85 亿原始 token,模型遇到的模式分布实际上是无限的。你在训练的数据量级是:

unique patterns ≈ (vocab_size)^(context_length) >> 8.5B tokens

因此模型仍在探索数据流形,并未“学尽所有内容”。

3. 学习率调度仍在生效

查看你的调度:

你仍处于主余弦衰减期(尚未到达长尾部分)。模型正在利用有意义的梯度信号进行积极优化。检查你的实际学习率曲线——模型仍在高强度训练。

4. 批次大小掩盖了梯度噪声

批次大小设为 65,536 token(非常大),梯度噪声较低。模型看到的优化方向更清晰。较小的批次会因噪声地板而更早趋于平缓。

为什么过拟合尚未出现

过拟合通常在以下情况出现:

  1. 验证损失明显高于训练损失
  2. 验证指标趋于平缓而训练损失持续下降
  3. 达到硬性的数据重复极限

上述情况均未发生。你的 CORE 指标(0.1916 → 0.1932)和验证 bpb 表明泛化能力依然健康。

你应该预期什么

损失将持续下降,直到以下条件之一被触发:

  1. 学习率触及噪声地板(Phase 2 结束时,学习率 → 0.001)
  2. 数据重复饱和——你已见过数据集中大多数 token n-gram
  3. 过拟合出现——验证指标相对训练指标恶化
  4. 批次大小地板——梯度噪声占据主导

根据你的设置,我预期:


真正的洞察

Chinchilla 告诉我们:“更大的模型 + 更少的数据 = 在给定预算下更高效地使用计算资源。”

但它并没有说:“超过 20:1 比例就停止训练;损失不会再改善。”

你在 45:1 的比例下训练是因为:

对于推理优化型模型(如蒸馏、LoRA 基座或边缘部署)而言,这是正确的选择。


参考文献:


Back Donate