VRAM优化的FineWeb训练设置 | AI生成和翻译

Home 2026.05

没关系——你可以运行几个小时。以下是烟雾测试的结果以及我做出的改动:

Findings

detach: Ctrl-b d reattach: tmux attach -t nano

如果 compile=True 在你的 torch/CUDA 组合上报错,只需在末尾添加 –compile=False 重新启动即可。

中断后恢复运行:添加 –init_from=resume。


Back Donate