MI300X 760M模型训练预估 | AI生成和翻译
760M 模型在 14.6B tokens 上的预估训练时间,单张 MI300X:约 24–35 小时
具体分解如下:
总 FLOPs: 6.66 × 10^19
MI300X 峰值: 1,307 TFLOPS (bf16)
实际 MFU: 40–60%(单 GPU,无通信开销)
在 40% MFU 下:约 35 小时
在 50% MFU 下:约 28 小时 ← 最可能情况
在 60% MFU 下:约 24 小时
与 Karpathy 的 nanochat 交叉验证:
- d24(约 1.5B)在 8×H100 上:约 2 小时完成 4.64e18 FLOPs
- 我们的运行:6.66e19 FLOPs = 14 倍计算量
- 在 8×H100 上:14 × 2 = 28 小时
- 在 1×MI300X 上(比 H100 快 1.33 倍):约 21 小时
- 计入单 GPU 开销:约 24–28 小时
与你在 RTX 4070 上的 124M 模型对比:
- 124M 在 4070 上,10B tokens:约 15–20 小时
- 760M 每个 token 的 FLOPs 是 6.1 倍
- MI300X 约快 10.5 倍(带宽受限情况)
- 净结果:15–20 × 6.1 × (14.6/10) / 10.5 ≈ 13–17 小时(若受带宽限制)
- 但 760M 是计算受限 → 更接近 24–28 小时
底线: 单张 MI300X 上约 1–1.5 天。对于 760M 模型处理 14.6B tokens 来说还不错。你可以在 tmux 中启动,第二天回来查看结果。