数据加载器状态与后续步骤 | AI生成和翻译

Home 2026.06

一切就绪。以下是完整情况:

数据格式检查
  模式:text, id, dump, url, file_path, language, language_score, token_count, score, int_score
  磁盘上142.6B tokens(175个训练分片 + 1个验证分片)
  平均每文档1037个token,每行组1000个文档,每个分片786个行组

数据加载器检查
  _document_batches() 有 `while True:` 无限循环(第47行)
  轮次递增:epoch 1 -> 2 -> 3 -> ...(永不停止)
  通过pq_idx/rg_idx/epoch状态字典支持恢复
  会反复循环所有175个训练分片 ✓

兼容性
  当前数据:fineweb-edu parquet (data__CC-MAIN-*.parquet)
  代码期望:climbmix parquet (shard_XXXXX.parquet)
  但是:list_parquet_files() 只是 glob 匹配 *.parquet - 与任何命名都兼容 ✓
  两者都有 'text' 列 - 数据加载器读取该列 ✓
  分词器是在相同数据上训练的 ✓

总结:无需下载数据。你有142.6B个token,但只用了0.655B个。数据加载器会无限循环。只需增加迭代次数:

当前运行:   10,000步 = 0.655B tokens  (占 Chinchilla 的 0.46%)
Chinchilla: 87,000步 = 5.7B tokens    (~28.5小时在 RTX 4070 上)
10B tokens: 153,000步                  (~50小时)

要我创建一个更新后的运行脚本,增加迭代次数吗?你的目标是什么——Chinchilla最优(87k步 / ~28小时)还是更激进?


Back Donate