训练设置与VPS部署总结 | AI生成和翻译

Home 2026.04

🎉 训练成功! 在大约 2 分钟内完成了 100 次迭代。损失从 10.84 → 8.71 下降。

VPS 上已准备好的内容摘要:

Item Location Notes
Data /root/nanoGPT/data/fineweb/ train.bin (27MB), val.bin (191MB)
Config /root/nanoGPT/config/train_fineweb_test.py Tiny model for test
Code /root/nanoGPT/ train.py, model.py, etc.
Output /root/nanoGPT/out-fineweb-test/ Checkpoints

对于你的 GPU droplet,你需要:

  1. 复制准备好的数据:
    scp -r root@159.89.216.20:/root/nanoGPT/data/fineweb ./data/
    
  2. 复制完整的 nanoGPT 代码:
    scp -r root@159.89.216.20:/root/nanoGPT/* ./
    
  3. 使用真实的训练配置 (config/train_fineweb.py),带有 GPU settings — 更大的 batch size,合适的模型 (125M params),compile=True 等。

  4. 在 GPU droplet 上,使用以下命令训练:
    python train.py config/train_fineweb.py
    

要我给你展示真实的 train_fineweb.py 配置设置,还是在 VPS 上准备完整的 61GB 数据(虽然会花费数小时)?


Back Donate