FineWeb 2013数据集概要 | AI生成和翻译

Home 2025.11

CC-MAIN-2013-20(2013年夏季数据转储)在FineWeb数据集中:

注:原始Common Crawl转储数据规模更大(过滤前约3930亿词元),但FineWeb仅保留高质量英文文本,因此这个2013年的旧转储数据经处理后大幅缩减。

若下载整个目录(例如通过huggingface-cli download或遍历所有分片的脚本),最终将获得约422 GB的parquet文件,内含1445亿个可直接用于训练的词元。

FineWeb数据集卡片(含各转储词元统计表)
HF上的CC-MAIN-2013-20目录(显示总容量)


Back

x-ai/grok-4.1-fast

Donate