灵活数据集下载与规划脚本 | AI生成和翻译

Home 2026.05

新增了 scripts/download/plan_and_download_fineweb.py。它做到了现有脚本没有的功能:

快速示例:

# 查看 FineWeb-Edu 10B 词元的下载计划,不实际下载
python scripts/download/plan_and_download_fineweb.py \
    --dataset fineweb-edu --target-tokens 10B --plan

# 通过镜像拉取 100B 词元到 datasets/
python scripts/download/plan_and_download_fineweb.py \
    --dataset fineweb-edu --target-tokens 100B \
    --output-dir datasets/fineweb-edu --mirror hf-mirror

# 仅下载单个快照,适用于 GPT-2 级实验
python scripts/download/plan_and_download_fineweb.py \
    --dataset fineweb --target-tokens 5B --dump CC-MAIN-2024-10

关于估算的说明:词元预估使用 4 字节/词元的经验值(基于 GPT-2 BPE 处理英语文本)。当你用实际的分词器处理完第一批数据后,可通过 --bytes-per-token 传递实测值以得到更精确的计划。另外,已将 huggingface_hubdatasets 添加至 requirements.txt


Back Donate