训练运行进度评估 | AI生成和翻译

Home 2026.06

问题: 训练运行是否顺利,从当前的损失曲线中我们能推断出什么?

回答:

是的,看起来状态良好。以下是对当前情况的快速解读:

进度合理性检查

可能的收敛点

你预测的 ~1.8–1.9 是合理的。作为参考,此规模下基于代码训练的模型通常收敛于:

模型 数据 最终验证损失
GPT-2 124M WebText ~2.85
GPT-2 124M FineWeb-Edu ~3.0–3.2
CodeParrot 110M GitHub 代码 ~1.7–1.9
你的运行 (760M) GitHub 代码 估计 ~1.6–1.8

你的模型更大(760M vs 110M),因此在相同数据上应该能超越 CodeParrot 的损失 —— 如果训练全程完成,预期下限约为 1.6–1.75

MFU 为 14.4% —— 这是需要关注的重点

在配备 192GB HBM3 的 MI300X 上,14.4% 的 MFU 偏低。MI300X 的理论峰值约为 383 TFLOPS(bf16)。在 14.4% 下,你实际获得约 55 TFLOPS 的有效算力。对于 760M 模型:

如果未优化,通过调优你可能将 MFU 提升至 35–45%,这将使预计完成时间大约减半。值得使用 rocprof 进行分析,或在单步训练时检查 roc-smi 的利用率。

剩余约 62 小时 / 2.5 天 —— 让它继续运行。在 16% 进度时,损失曲线仍有明显的下降空间。真正的信号将在约 50% 进度时出现,届时你将看到曲线是过早趋于平缓,还是仍在干净地下降。


Back Donate