健康培训快照 | AI生成和翻译

Home 2026.05

看起来健康——训练运行正常。状态快照:

   
Process PID 1200744, running 1m34s, 88% CPU, alive
GPU 7.5 / 12.3 GB VRAM (~4.8 GB headroom), 100% util, 64°C
Params 123.59 M ✓ (matches GPT-2 124M)
Optimizer fused AdamW ✓
Shards train=1407, val=1 ✓
Step 0 eval train loss 11.0040, val loss 11.0031 ✓ (matches ln(50304) ≈ 10.83)
iter 0 17.16 s (includes warmup; subsequent iters drop to ~11 s)
Last log write 75 s ago — we’re mid-iter, no print yet

为什么没有最近的日志行?log_interval=20,因此下一次打印将在迭代 20 进行。以每个迭代约 11 秒计算,那大约是运行开始后的 220 秒(从进程开始约 3.5 分钟)——应该会在接下来的一两分钟内出现。

无需操作。一切正常。大约 5 分钟后回来查看第一个 iter 20: 行并确认稳态每迭代时间。


Back Donate