GPT-2 在 AMD MI300X 上的训练进度 | AI生成和翻译
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ GPT-2 760M — MI300X (amd-cloud) — LIVE ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
当前: 迭代 30,800 / 445,000 (6.92%) Token: ~1.01B / 14.58B tokens MFU: 108–113% (极其稳定) 每迭代: ~453ms
验证损失趋势: 13000 → 3.4759 14000 → 3.4550 ↓ 15000 → 3.4309 ↓ 16000 → 3.4170 ↓ 28000 → 3.2967 ↓ 29000 → 3.2753 ↓ 30000 → 3.2698 ↓ (仍在稳步下降)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
剩余: 414,200 次迭代 预计时间: ~59.4 小时 ≈ 2.5 天 预计成本: 剩余 ~$119 预计完成时间: ~6月3日晚 / 6月4日凌晨 UTC
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
训练进展顺利。损失从 3.48 下降到 3.27,覆盖最近约 17K 次迭代——良好的收敛。MFU 稳定在 108–113%。已处理约 1B 个 tokens,还需处理 13.6B 个。大约还剩 2.5 天。