GPT训练时间预估 | AI生成和翻译

Home 2026.05

目前还无法精确估算——只打印了 iter 0(下一条日志行在 iter 20,随时可能出现)。不过,根据测试中预估的 ~11 秒/迭代,可以计算出以下数据:

阶段 耗时
19,073 次训练迭代 × ~11 秒 ~58.3 小时
初始预热(iter 0 开销) ~17 秒
38 次评估 × 9 秒(每 500 迭代) ~6 分钟
38 次检查点写入 × ~8 秒 ~5 分钟
总计 ~59.5 小时(约 2.5 天)

这是针对完整配置运行(结束于 iter 19073,约看到 10 B 个 token)的估算。

如果你不想等那么久:

停止于 iter 已见 token 数 耗时 预期损失
5,000 ~2.6 B ~15.5 小时 ~3.5–3.8
10,000 ~5.2 B ~31 小时 ~3.2–3.4
19,073(配置值) ~10 B ~59.5 小时 ~2.9–3.1

你可以在任意 500 迭代的检查点边界终止运行,模型仍然可用——sample.py --out_dir=out-fineweb-gpt3 会加载最新的检查点。

一旦第一条 iter 20: 日志出现(大约 1 分钟内),我会更新这个估算。如果你那时想要更精确的数字,再联系我。


Back Donate