GPT训练时间预估

GPT训练时间预估 | AI生成和翻译

首页 2026.05

目前还无法精确估算——只打印了 iter 0（下一条日志行在 iter 20，随时可能出现）。不过，根据测试中预估的 ~11 秒/迭代，可以计算出以下数据：

这是针对完整配置运行（结束于 iter 19073，约看到 10 B 个 token）的估算。

如果你不想等那么久：

停止于 iter	已见 token 数	耗时	预期损失
5,000	~2.6 B	~15.5 小时	~3.5–3.8
10,000	~5.2 B	~31 小时	~3.2–3.4
19,073（配置值）	~10 B	~59.5 小时	~2.9–3.1

你可以在任意 500 迭代的检查点边界终止运行，模型仍然可用——sample.py --out_dir=out-fineweb-gpt3 会加载最新的检查点。

一旦第一条 iter 20: 日志出现（大约 1 分钟内），我会更新这个估算。如果你那时想要更精确的数字，再联系我。

返回捐助