MI300X 挑战理论训练预估 | AI生成和翻译

Home 2026.06

MFU 这个数字具有误导性——nanoGPT 在计算 MFU 时硬编码了 A100 的峰值(312 TFLOPS),而非 MI300X。真正有价值的信号是实际观测到的吞吐量。

冒烟测试结果——实际测量值:

Observed:    50,568 tok/s (batch=4, no compile)
Batch=32:    ~404,543 tok/s (线性扩展)
+ compile:   ~525,906 tok/s (+30%)

预计训练时间:8–10 小时

这比我的理论估算(24–35 小时)要好得多。MI300X 确实很快。

轮到你了。在 tmux 中运行:

cd /root/nanoGPT
python3 train.py config/train_fineweb_760m.py

配置文件:/root/nanoGPT/config/train_fineweb_760m.py


Back Donate