通过Hugging Face下载OpenWebText子集 | AI生成和翻译

Home 2025.11

您提到的数据集托管在 Hugging Face 平台,仓库 ID 为 Skylion007/openwebtext。其中特定文件 subsets/urlsf_subset00.tar 可公开访问(无需认证),您可以使用 Hugging Face CLI 工具(huggingface-cli)进行下载。具体操作如下:

环境准备

下载命令

在终端中运行:

huggingface-cli download Skylion007/openwebtext subsets/urlsf_subset00.tar --local-dir ./openwebtext

Python 脚本方案(替代方案)

若倾向使用 Python 脚本(通过 huggingface_hub 库):

from huggingface_hub import hf_hub_download

# 下载至当前目录
hf_hub_download(
    repo_id="Skylion007/openwebtext",
    filename="subsets/urlsf_subset00.tar",
    local_dir="./openwebtext",  # 可选参数:指定基础目录
    repo_type="dataset"
)

请先安装该库:pip install huggingface_hub

注意事项

若遇到错误,请提供终端输出以便排查问题!


Back

x-ai/grok-4-fast

Donate