d8 培训总结与进展 | AI生成和翻译

Home 2026.06

d8 训练总结
===================

模型:
  架构:depth=8, dim=512, heads=4, head_dim=128, seq=1024
  参数量:125,829,354(约1.26亿)
  每次token的FLOPs:273M(比d4多3.8倍)

训练配置:
  步数:5,000
  批量大小:4,096 tokens/步
  总token数:20,480,000(约2000万)
  追踪器:MLflow (http://192.168.1.36:5000)

进度(前3步):
  第0步:loss 10.398 | 46 tok/sec | 耗时 88s
  第1步:loss 10.397 | 53 tok/sec | 耗时 77s
  第2步:loss 10.395 | 61 tok/sec | 耗时 67s
  第0步的Val bpb:3.209

稳态估计:
  ~60 tok/sec,~68s/步
  5000步 × 68s = 340,000s ≈ 94小时 ≈ 4天

与d4的对比:
  d4:  3700万参数,115 tok/sec,18s/步
  d8:  1.26亿参数,60 tok/sec,68s/步
  速度比:115/60 = 1.9倍(根据FLOPs预期为3.8倍,但torch.compile在更大模型上分摊了开销)

正在运行的会话:
  1.36:tmux dist-master(训练)+ tmux mlflow(UI在端口5000)
  1.47:tmux dist-worker

MLflow UI:http://192.168.1.36:5000

Back Donate