训练设置与VPS部署总结 | AI生成和翻译
🎉 训练成功! 在大约 2 分钟内完成了 100 次迭代。损失从 10.84 → 8.71 下降。
VPS 上已准备好的内容摘要:
| Item | Location | Notes |
|---|---|---|
| Data | /root/nanoGPT/data/fineweb/ |
train.bin (27MB), val.bin (191MB) |
| Config | /root/nanoGPT/config/train_fineweb_test.py |
Tiny model for test |
| Code | /root/nanoGPT/ |
train.py, model.py, etc. |
| Output | /root/nanoGPT/out-fineweb-test/ |
Checkpoints |
对于你的 GPU droplet,你需要:
- 复制准备好的数据:
scp -r root@159.89.216.20:/root/nanoGPT/data/fineweb ./data/ - 复制完整的 nanoGPT 代码:
scp -r root@159.89.216.20:/root/nanoGPT/* ./ -
使用真实的训练配置 (
config/train_fineweb.py),带有 GPU settings — 更大的 batch size,合适的模型 (125M params),compile=True等。 - 在 GPU droplet 上,使用以下命令训练:
python train.py config/train_fineweb.py
要我给你展示真实的 train_fineweb.py 配置设置,还是在 VPS 上准备完整的 61GB 数据(虽然会花费数小时)?