Torch 编译阶段与训练估算 | AI生成和翻译

Home 2026.04

这里有两个阶段:

  1. iter 0: 113storch.compile() 正在 tracing/optimizing the graph。这是一个一次性成本。
  2. iter 50: 21s — 已编译并运行

编译完成后,你应该稳定在 1-3 sec/step 左右。164% MFU 看起来很奇怪 — 很可能是在编译期间的测量伪影。

时间估计:

现在检查 nvidia-smi — GPU-Util 还是 100% 吗?如果是,只是编译开销。一旦完成,你会看到巨大的加速。

另外 — loss 从 11.05 → 7.65(在 50 steps 内)下降是健康的。模型学习良好。问题是它是否会加速。


Back Donate