GPT训练时间预估 | AI生成和翻译
目前还无法精确估算——只打印了 iter 0(下一条日志行在 iter 20,随时可能出现)。不过,根据测试中预估的 ~11 秒/迭代,可以计算出以下数据:
| 阶段 | 耗时 |
|---|---|
| 19,073 次训练迭代 × ~11 秒 | ~58.3 小时 |
| 初始预热(iter 0 开销) | ~17 秒 |
| 38 次评估 × 9 秒(每 500 迭代) | ~6 分钟 |
| 38 次检查点写入 × ~8 秒 | ~5 分钟 |
| 总计 | ~59.5 小时(约 2.5 天) |
这是针对完整配置运行(结束于 iter 19073,约看到 10 B 个 token)的估算。
如果你不想等那么久:
| 停止于 iter | 已见 token 数 | 耗时 | 预期损失 |
|---|---|---|---|
| 5,000 | ~2.6 B | ~15.5 小时 | ~3.5–3.8 |
| 10,000 | ~5.2 B | ~31 小时 | ~3.2–3.4 |
| 19,073(配置值) | ~10 B | ~59.5 小时 | ~2.9–3.1 |
你可以在任意 500 迭代的检查点边界终止运行,模型仍然可用——sample.py --out_dir=out-fineweb-gpt3 会加载最新的检查点。
一旦第一条 iter 20: 日志出现(大约 1 分钟内),我会更新这个估算。如果你那时想要更精确的数字,再联系我。