FineWeb 2013数据集概要

FineWeb 2013数据集概要 | AI生成和翻译

Home 2025.11

CC-MAIN-2013-20（2013年夏季数据转储）在FineWeb数据集中：

.parquet文件数量：约460–500个
（文件分片大小不一：多数约1 GB，部分较大可达2 GB。目录总容量为422 GB，按平均0.9 GB计算约含460–480个分片。文件命名按序从000_00000.parquet至约000_004xx.parquet）
所有parquet文件总大小：422 GB
使用GPT风格分词器编码后的词元数量（GPT-4采用的cl100k_base或FineWeb报告使用的旧版GPT-2分词器）：
1445亿词元（经过FineWeb的数据清洗、过滤与去重流程后）

注：原始Common Crawl转储数据规模更大（过滤前约3930亿词元），但FineWeb仅保留高质量英文文本，因此这个2013年的旧转储数据经处理后大幅缩减。

若下载整个目录（例如通过huggingface-cli download或遍历所有分片的脚本），最终将获得约422 GB的parquet文件，内含1445亿个可直接用于训练的词元。

Back Donate