损失在Chinchilla最优值之外降低。

损失在Chinchilla最优值之外降低。 | AI生成和翻译

首页 2026.06

问题： 为什么即使训练量超出 Chinchilla 最优值 45.8 倍（286M 参数对应 13.1B tokens，而最优比例为 20:1），损失仍在持续下降？

你混淆了两个不同的概念：计算最优缩放（Chinchilla）和损失实际趋于平缓的时机。它们不是一回事。

Chinchilla 最优是关于资源分配，而非饱和问题。 它回答的是：“给定固定计算预算，什么样的模型/数据划分效率最高？” 答案是大约 20:1 的 token/参数比。但这并不意味着超过该比例后损失就会停止下降——它只说明你计算效率降低（本可以训练一个更大的模型但训练步数更少）。

你的模型损失仍然在下降，原因如下：

你的 286M 模型拥有 12 层 × 6 个注意力头，尚未达到饱和。学习曲线大致如下：

loss = a / (tokens)^b + noise

其中在该规模下 b ≈ 0.08-0.10（基于经验，并非精确解析值）。损失会平滑地下降——它不会遇到硬性天花板。在 85 亿 token 阶段（Phase 1），你仍处于该曲线的陡峭部分。

恢复训练时的验证 bpb（0.810）表明模型仍有泛化能力。如果过拟合，验证 bpb 会显著高于训练损失。但事实并非如此。

使用 BPE 词表（32K token）和 2K 上下文窗口，即使经过完全洗牌，面对 85 亿原始 token，模型遇到的模式分布实际上是无限的。你在训练的数据量级是：

unique patterns ≈ (vocab_size)^(context_length) >> 8.5B tokens

因此模型仍在探索数据流形，并未“学尽所有内容”。

查看你的调度：

你仍处于主余弦衰减期（尚未到达长尾部分）。模型正在利用有意义的梯度信号进行积极优化。检查你的实际学习率曲线——模型仍在高强度训练。

批次大小设为 65,536 token（非常大），梯度噪声较低。模型看到的优化方向更清晰。较小的批次会因噪声地板而更早趋于平缓。

过拟合通常在以下情况出现：

上述情况均未发生。你的 CORE 指标（0.1916 → 0.1932）和验证 bpb 表明泛化能力依然健康。

损失将持续下降，直到以下条件之一被触发：

根据你的设置，我预期：

Chinchilla 告诉我们：“更大的模型 + 更少的数据 = 在给定预算下更高效地使用计算资源。”

但它并没有说：“超过 20:1 比例就停止训练；损失不会再改善。”

你在 45:1 的比例下训练是因为：

对于推理优化型模型（如蒸馏、LoRA 基座或边缘部署）而言，这是正确的选择。

参考文献：

Chinchilla 论文：“Training Compute-Optimal Large Language Models”（Hoffmann 等，2022）——定义了 20:1 定律，但未说明损失何时趋于平缓
经验数据：OpenAI/DeepSeek 的发现表明 loss ∝ tokens^(-0.08) 至 ^(-0.10)——无硬性饱和，仅收益递减
你的指标：CORE 0.1916，验证 bpb 0.780 表明泛化健康，并非过拟合

返回捐助