数据加载器状态与后续步骤

数据加载器状态与后续步骤 | AI生成和翻译

首页 2026.06

一切就绪。以下是完整情况：

数据格式检查
  模式：text, id, dump, url, file_path, language, language_score, token_count, score, int_score
  磁盘上142.6B tokens（175个训练分片 + 1个验证分片）
  平均每文档1037个token，每行组1000个文档，每个分片786个行组

数据加载器检查
  _document_batches() 有 `while True:` 无限循环（第47行）
  轮次递增：epoch 1 -> 2 -> 3 -> ...（永不停止）
  通过pq_idx/rg_idx/epoch状态字典支持恢复
  会反复循环所有175个训练分片 ✓

兼容性
  当前数据：fineweb-edu parquet (data__CC-MAIN-*.parquet)
  代码期望：climbmix parquet (shard_XXXXX.parquet)
  但是：list_parquet_files() 只是 glob 匹配 *.parquet - 与任何命名都兼容 ✓
  两者都有 'text' 列 - 数据加载器读取该列 ✓
  分词器是在相同数据上训练的 ✓

总结：无需下载数据。你有142.6B个token，但只用了0.655B个。数据加载器会无限循环。只需增加迭代次数：

当前运行：   10,000步 = 0.655B tokens  (占 Chinchilla 的 0.46%)
Chinchilla： 87,000步 = 5.7B tokens    (~28.5小时在 RTX 4070 上)
10B tokens： 153,000步                  (~50小时)

要我创建一个更新后的运行脚本，增加迭代次数吗？你的目标是什么——Chinchilla最优（87k步 / ~28小时）还是更激进？

返回捐助