平坦低分辨率退化结果

平坦低分辨率退化结果 | AI生成和翻译

首页 2026.06

min_val_bpb = 0.780 (step 130k)。两次训练均未超过起始 checkpoint。两次训练都出现了退化——v2 退化得更严重（0.853 vs 0.801），原因是动量不匹配。

核心问题不仅仅是 LR 调度——而是将训练从 130k 扩展到 200k 导致模型在两次尝试中都变得更差。模型可能在 130k 时已经收敛（token:参数比 21.8x，接近 Chinchilla 最优）。在此规模下继续训练是过度训练，没有任何益处。

要实际超过 0.780，需要以下条件之一：

需要我清理 checkpoint 并只保留 130k 的最佳结果吗？

返回捐助