训练运行进度评估

训练运行进度评估 | AI生成和翻译

首页 2026.06

问题： 训练运行是否顺利，从当前的损失曲线中我们能推断出什么？

回答：

是的，看起来状态良好。以下是对当前情况的快速解读：

进度合理性检查

可能的收敛点

你预测的 ~1.8–1.9 是合理的。作为参考，此规模下基于代码训练的模型通常收敛于：

你的模型更大（760M vs 110M），因此在相同数据上应该能超越 CodeParrot 的损失 —— 如果训练全程完成，预期下限约为 1.6–1.75。

MFU 为 14.4% —— 这是需要关注的重点

在配备 192GB HBM3 的 MI300X 上，14.4% 的 MFU 偏低。MI300X 的理论峰值约为 383 TFLOPS（bf16）。在 14.4% 下，你实际获得约 55 TFLOPS 的有效算力。对于 760M 模型：

如果未优化，通过调优你可能将 MFU 提升至 35–45%，这将使预计完成时间大约减半。值得使用 rocprof 进行分析，或在单步训练时检查 roc-smi 的利用率。

剩余约 62 小时 / 2.5 天 —— 让它继续运行。在 16% 进度时，损失曲线仍有明显的下降空间。真正的信号将在约 50% 进度时出现，届时你将看到曲线是过早趋于平缓，还是仍在干净地下降。

返回捐助