训练进度与损失趋势 | AI生成和翻译
进度 (周三 02:14 HKT,距上次检查已过 3 小时 9 分钟)
当前状态:
- 迭代 约 4,440 / 19,073 — 完成 23.3% (上次于 23:05 为 17.9%)
- 最新验证损失 3.3454(迭代 4000 处,较迭代 3000 时的 3.40 有所下降)
- 近期训练损失稳定在 3.0–3.4 区间,偶尔跌破 3.0(迭代 3740: 2.99,迭代 3940: 2.99,迭代 4020: 2.94)
- 单步时间仍为 ~11.11 秒/迭代,MFU 12.84%
- 已保存 8 个检查点(500 → 4000);下一次保存将在迭代 4500 处,约 11 分钟后
- 无错误,无减速
验证损失轨迹 — 仍在改善,斜率如预期般趋缓:
| iter | val loss |
|---|---|
| 1000 | 4.04 |
| 1500 | 3.77 |
| 2000 | 3.57 |
| 2500 | 3.47 |
| 3000 | 3.40 |
| 3500 | 3.34 |
| 4000 | 3.35 |
注意:迭代 4000 处的验证损失(3.345)与迭代 3500 处(3.343)基本持平——这是首次出现评估间增量约等于零的情况。可能是噪声,也可能是进入缓慢进展阶段的开始;值得在迭代 4500/5000 时关注。
从现在起剩余时间:
| 停止点 | 剩余迭代数 | 预计运行时间 | 预计完成时间 (HKT) | 预期损失 |
|---|---|---|---|---|
| 5,000 | ~560 | ~1.7 小时 | ~周三 04:00 | ~3.30 |
| 10,000 | ~5,560 | ~17.2 小时 | ~周三 19:30 | ~3.0–3.1 |
| 19,073(完整) | ~14,630 | ~45.2 小时 ≈ 1.9 天 | ~周四 23:30 | ~2.9–3.0 |
运行状态健康且进度正常。如果需要提前退出的自然窗口,5,000 迭代停止点现在只需不到 2 小时即可到达。