基于AMD MI300X的GPT-2训练 | AI生成和翻译
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
GPT-2 760M — MI300X (amd-cloud) — 实时
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
当前: 迭代 69,550 / 445,000 (15.63%)
令牌: ~2.28B / 14.58B tokens
MFU: 108–113% (极为稳定)
每迭代: ~453ms
验证损失趋势:
13000 → 3.4759
28000 → 3.2967 ↓
30000 → 3.2698 ↓
67000 → 3.1676 ↓
68000 → 3.1652 ↓
69000 → 3.1573 ↓ (仍在稳步下降)
训练损失: ~3.19–3.20
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
剩余: 375,450 次迭代
预计时间: ~53.9 小时 ≈ 2.25 天
预计成本: ~$108 剩余
完成预计时间: ~6月3日 UTC 晚些时候
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
训练状态健康。损失已从 3.48(第13K步)降至 3.16(第69K步)——良好的收敛。MFU维持在 108–113%。剩余约 2.25 天。