训练进度超前于预测 | AI生成和翻译
自快照以来大幅跃升——运行现在位于迭代 ~6,180 / 19,073(~32.4%),验证损失远低于预期投影。
验证损失进展(最近 5 次评估):
迭代 4000 → 3.3454
迭代 4500 → 3.2967 (增量 -0.049)
迭代 5000 → 3.2596 (增量 -0.037)
迭代 5500 → 3.2581 (增量 -0.002) ← 短暂持平
迭代 6000 → 3.2473 (增量 -0.011)
因此“迭代 4000 持平”的读数只是噪声,并非缓慢进展阶段——验证损失重新开始下降。我们已经轻松超越快照在 5,000 迭代停止时设定的 ~3.30 目标(实际在 5000 迭代:3.26)。
其他关键指标——全部不变/正常:
- 步耗时 11.10–11.11 秒/迭代,MFU 12.86%
- 检查点在 4500、5000、5500、6000 处干净保存(现共 12 个)
- 无错误,无减速
- 训练损失持续降至 2.9 范围(迭代 5700:2.93,5780:2.95,5960:2.94)
从当前(迭代 6,180,~11.11 秒/迭代)更新的剩余时间:
停止点 剩余迭代 挂钟时间 预计时间(HKT)
10,000 ~3,820 ~11.8 小时 ~周三 14:00
19,073(完整) ~12,890 ~39.8 小时 ~周四 17:30
运行状态健康,且领先于快照所投影的损失曲线。无需采取任何操作。