下载部分OpenWebText数据集 | AI生成和翻译
啊,明白了——你想继续使用 Hugging Face CLI 但只获取一小部分数据。问题是:CLI 的设计初衷是下载完整文件而非片段。OpenWebText 被分割成 21 个 .tar 子集文件;如果使用 CLI,它会下载完整的压缩包,因此无法在不下载大文件的情况下精确获取「1%」的数据。
以下是可行的解决方案:
1. 仅下载部分文件
不下载全部 21 个文件,只选择少量压缩包:
huggingface-cli download \
--repo-type dataset openwebtext/subsets/urlsf_subset00.tar \
--local-dir ./openwebtext
huggingface-cli download \
--repo-type dataset openwebtext/subsets/urlsf_subset01.tar \
--local-dir ./openwebtext
- 每个压缩包约 625MB,下载 1-2 个相当于数据集的 1-2%
- 可自由选择子集,Hugging Face 不要求按顺序下载
2. 按需解压文件
下载完成后:
cd ./openwebtext
tar -xvf urlsf_subset00.tar
tar -xvf urlsf_subset01.tar
随后可仅处理这些子集中的部分文档
3. 可选:结合 HF Transfer 加速
提升 CLI 下载速度:
pip install hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
重新执行 CLI 命令后下载速度将显著提升
需要我编写一个通过 CLI 自动选取约 1% OpenWebText 数据的精简命令脚本吗?这样您就无需手动选择压缩包了。是否需要我实现这个功能?