训练进度与预计完成时间保持稳定 | AI生成和翻译
训练仍然正常,按计划进行。
进度:迭代 2480 / 8000(31%),已运行 12 小时 51 分钟,自上次检查以来增加了 640 次迭代(约 3.3 小时前)。
最新验证损失:3.4900(步骤 2250 处,3.6912 → 3.6331 → 3.5057 → 3.4900)。仍在下降,但衰减速度在放缓——每次评估的差距已从早期的约 0.4 缩小到现在的约 0.02。
GPU:利用率 100%,211W,65°C——吞吐量相同,约 18.55 秒/迭代,MFU 13.6%。
剩余时间:5520 次迭代 × 18.55 秒 + 检查点停滞 ≈ 28–29 小时,预计完成时间大约为 2026 年 5 月 16 日星期六,约 05:15 本地时间。
如果在接下来的 2–3 次评估中验证损失进一步趋于平缓,你可以安全地在迭代 4000–5000 左右提前停止,节省约 15 小时——最终检查点将已经保存在 out-gpt2-200m 中。但目前无需干预。