磁盘满恢复与数据管理方案 | AI生成和翻译

Home 2026.05

是的——我们先诊断,再修复。

当前状态:磁盘已100%满。不仅仅是下载问题——Claude Code本身甚至无法启动bash(无法创建其会话环境目录)。因此,在你手动释放几MB空间之前,我无法运行任何命令。

最快的解堵方法:删除崩溃分片中未写完的.part文件。分片34失败,其.part文件是无效的,而progress.json仍将其标记为待处理——删除它不会丢失任何实际进度:

ls -lh datasets/fineweb-edu/*.part
rm datasets/fineweb-edu/*.part
df -h .

释放出几GB后,粘贴df -h的输出,剩下的交给我。

然后我们选择方向(先不做决定,只是提前考虑):

  1. 更大的磁盘:这台机器在其他地方挂载了更大的卷吗?400 GB显然放不下当前磁盘。如果有,执行mv datasets/fineweb-edu/到更大的磁盘,建立符号链接回来,脚本透明地继续执行。
  2. 削减目标:对于“小规模”消融实验来说,100B tokens太重了。nanoGPT规模的项目使用10–25B(40–100 GB),这很可能能放下。降低TARGET_TOKENS,重新规划;progress.json中已下载的分片仍然会被复用。
  3. 改用流式加载load_dataset(..., streaming=True),不需要磁盘上的parquet文件。但训练端需要重写——可能不划算。

我更倾向1(如果有更大的磁盘),否则选2。先运行rm,然后分享df -h


Back Donate