根据缩放定律的训练运行欠训练

根据缩放定律的训练运行欠训练 | AI生成和翻译

首页 2026.06

问题：这个 nanochat 训练跑得怎么样？

回答：

好的方面：

训练曲线干净，零 NaN，零崩溃。单调改善的端到端训练正是你想要的。
在 RTX 4070 上每秒约 56k token 的吞吐量对于没有使用 Flash Attention 的 bfloat16 运行来说已经很扎实了。
78% 的 VRAM 利用率留出了余量，你的内存管理很紧凑。
损失从 10.4（随机初始化）下降到 2.98（最终值），曲线形状堪称教科书级别。

问题——你严重训练不足：

Chinchilla-Hoffmann 缩放定律指出最优 token 与参数比约为 20。你目前是 5.95，差距达 3.4 倍。

# Chinchilla 定律：tokens ≈ 20 * params
# 你的运行：
params = 286e6
tokens = 655e6
ratio = tokens / params  # 5.95
optimal_tokens = 20 * params  # 需要 5.72B tokens

print(f"你需要 {optimal_tokens / 1e9:.2f}B tokens，实际训练了 {tokens / 1e9:.2f}B")
print(f"差距：{optimal_tokens / tokens:.1f}x")

输出：你需要 5.72B tokens，实际训练了 0.66B。差距：8.7 倍

这完美解释了样本质量的问题。模型知道事实存在（能正确列出行星），但无法可靠地锚定它们（法国首都有误，黄金符号循环输出）。它只是在记忆弱模式，而非学习稳健的表征。

你应该做的事：

方案一（考虑到你有 MI300X 访问权限，推荐）：缩减模型规模，训练至 Chinchilla 比值

使用 64M 或 128M 参数而非 286M
在你全部的 655M tokens 上训练 → 你将达到最优比值
推理速度更快，样本质量大幅提升
可在本地 RTX 4070 上运行，迭代更快

方案二（如果你想继续推 286M）：在 MI300X 上训练 10 倍时长

从 1 万步增加到 4-5 万步（训练到约 5.7B tokens）
你有 192GB HBM3，可以轻松设置 batch_size=262144, seq=2048
你的吞吐量将达到约 500k tok/sec（相比 RTX 4070 的 56k）
完整运行：约 3 小时在 MI300X 上（相比于 RTX 4070 的 3.3 小时，但 token 量多了 8.7 倍）
如果你想验证模型的真正上限，这是“训练至饱和”的路径

硬件现实：

RTX 4070 适合迭代和原型设计，但吞吐量在约 60k tok/sec 时就会遇到瓶颈
MI300X 是扩展规模的地方。对于 286M + 5.7B tokens，目标是每分钟 100-200 步（很容易实现）
如果你经常训练超过 500M token 的运行，AMD 云实例每小时 2 美元，长期来看每个 token 的成本低于 RTX 4070 的电费

一个技术说明： 你的学习率冷却从训练的 65% 开始（第 6500 步）。如果扩展到 4 万步，那将是第 2.6 万步。考虑调整冷却计划——过早冷却会在最后阶段浪费学习信号。

结论： 不要继续在 655M tokens 上推 286M 模型了。要么缩小模型，要么扩大算力。目前你处在一个糟糕的状态——模型够大导致慢，又小到训练不足。选一个方向并坚持执行。

返回捐助