评估显示动量成本 | AI生成和翻译
Step 160k 评估已完成。总结如下:
Step | v2 val_bpb | 旧版 val_bpb | v2 smooth_loss
------|------------|--------------|---------------
130k | 0.780* | 0.780 | 2.602
140k | 0.902 | 0.865 | 2.888
150k | 0.890 | (无数据) | 2.841
160k | 0.882 | 0.843 | 2.899
*原始检查点
v2 正在改善:0.902 → 0.890 → 0.882(每 10k 步下降 0.010) 但在相同步数下仍比旧版运行差 0.039(0.882 vs 0.843)。
按照这个速度,v2 在 step 200k 时将达到约 0.850(旧版运行结果为 0.801)。动量惩罚大约需要 3000 步来恢复。不算灾难性,但也不理想。
模型确实在学习——只是由于动量不匹配而速度较慢。继续运行,或者如果你想获得干净的结果,可以终止并使用 --warmdown-ratio=0.33 重新开始。