GPT-2 分词后的 FineWeb 分片脚本 | AI生成和翻译

Home 2026.05

新脚本位于 scripts/extract/tokenize_fineweb_gpt3.py。原始的 extract_fineweb_gpt3.py 保持不变。

功能说明

输出

运行方式

python3.11 scripts/extract/tokenize_fineweb_gpt3.py

注意事项


Back Donate