VRAM优化的FineWeb训练设置 | AI生成和翻译

Home 2026.05

没关系——你可以运行几个小时。以下是烟雾测试的结果以及我做出的改动:

Findings

Time budget for the real run (max_iters=19073, ~10B tokens seen)

Run this in another terminal

cd /mnt/data/nanoGPT tmux new -s nano # 使其在断开连接后仍存活 source venv/bin/activate

PYTORCH_ALLOC_CONF=expandable_segments:True
python -u train.py config/train_fineweb_gpt3.py 2>&1
| tee -a out-fineweb-gpt3/train.log # detach: Ctrl-b d reattach: tmux attach -t nano

如果 compile=True 在你的 torch/CUDA 组合上报错,只需在末尾添加 –compile=False 重新启动即可。

中断后恢复运行:添加 –init_from=resume。


Back Donate