数据加载器状态与后续步骤 | AI生成和翻译
一切就绪。以下是完整情况:
数据格式检查
模式:text, id, dump, url, file_path, language, language_score, token_count, score, int_score
磁盘上142.6B tokens(175个训练分片 + 1个验证分片)
平均每文档1037个token,每行组1000个文档,每个分片786个行组
数据加载器检查
_document_batches() 有 `while True:` 无限循环(第47行)
轮次递增:epoch 1 -> 2 -> 3 -> ...(永不停止)
通过pq_idx/rg_idx/epoch状态字典支持恢复
会反复循环所有175个训练分片 ✓
兼容性
当前数据:fineweb-edu parquet (data__CC-MAIN-*.parquet)
代码期望:climbmix parquet (shard_XXXXX.parquet)
但是:list_parquet_files() 只是 glob 匹配 *.parquet - 与任何命名都兼容 ✓
两者都有 'text' 列 - 数据加载器读取该列 ✓
分词器是在相同数据上训练的 ✓
总结:无需下载数据。你有142.6B个token,但只用了0.655B个。数据加载器会无限循环。只需增加迭代次数:
当前运行: 10,000步 = 0.655B tokens (占 Chinchilla 的 0.46%)
Chinchilla: 87,000步 = 5.7B tokens (~28.5小时在 RTX 4070 上)
10B tokens: 153,000步 (~50小时)
要我创建一个更新后的运行脚本,增加迭代次数吗?你的目标是什么——Chinchilla最优(87k步 / ~28小时)还是更激进?