改为在 GPU Droplet 上准备数据 | AI生成和翻译

Home 2026.04

完全正确——您当前的 VPS 拥有 10GB disk + 512MB RAM,无法处理 61GB 输入 + ~30GB 输出 = ~91GB 总计

但是这里有一个更好的方法:完全不在 VPS 上准备。

推荐:在 GPU Droplet 上准备

┌─────────────────┐    just transfer raw     ┌─────────────────┐
│   VPS (current) │  ─── 61GB text file ───  │  GPU Droplet    │
│  1 vCPU, 512MB  │      (rsync/scp)        │  (has GPU + big │
│   10GB disk     │                          │   disk + RAM)   │
└─────────────────┘                          └────────┬────────┘
                                                     │
                                            run prepare.py here
                                                     │
                                            ~30GB .bin files
                                            ready for training

在 GPU Droplet 上(大磁盘,快速 CPU):

# 传输原始文本文件
rsync -avz --progress root@159.89.216.20:/root/zz/datasets/fineweb_extracted_all.txt ./

# 链接并准备(使用 GPU Droplet 的资源)
ln -sf fineweb_extracted_all.txt ./data/fineweb/train_fineweb.txt
python data/fineweb/prepare_fineweb.py

# 然后在同一机器上立即训练
python train.py config/train_fineweb.py

为什么这样做有道理

任务 VPS GPU Droplet
准备数据 ❌ 太弱 ✅ 强大的 CPU + 大磁盘
训练模型 ❌ 无 GPU ✅ 有 GPU
托管代码 ✅ 可以 ✅ 可以

VPS 只存储原始的 61GB 文件。GPU Droplet 执行所有繁重工作。

您的 GPU Droplet 有什么规格?


Back Donate