FineWeb数据集Parquet文件数量 | AI生成和翻译

Home 2025.11

FineWeb 数据集(HuggingFaceFW/fineweb 上的 15T+ 词元英文版本)总共包含约 35,000 至 50,000.parquet 文件。

详细说明

您的脚本下载的是非常小的 CC-MAIN-2013-20 数据转储中的第 11 到第 20 个分片(10 个文件),而该数据转储本身的总分片数远多于此——仅该数据转储就有数百个分片。

如果您想获得确切的数量,可以使用 Hugging Face Hub API(例如,使用 huggingface_hub.list_repo_files)以编程方式计算,但上述大致数字是人们通常在下载或处理完整数据集时使用的。

FineWeb 数据集卡片
FineWeb 数据树(示例数据转储)


Back

x-ai/grok-4.1-fast

Donate