OpenWebText数据集下载指南 | AI生成和翻译

Home 2025.11

问题分析

RepositoryNotFoundError (401 客户端错误) 确认了 Hugging Face 上不存在名为 openwebtext 的仓库。这就是下载失败的原因——HF 在 https://huggingface.co/openwebtext 找不到该仓库。”Invalid username or password” 部分是 HF 认证层的通用回退消息,但此处无关紧要,因为该仓库根本不存在。OpenWebText(您尝试访问的数据集)是 GPT-2 时代的公共语料库,但并未作为标准仓库托管在 Hugging Face 上。相反,它通过镜像、种子或学术/GitHub 源的直接下载进行分发。

正确的下载方法

使用直接 HTTP 下载或来自稳定镜像的种子。最可靠的来源是 Skylion007 的 GitHub 镜像(社区为托管清理后语料库所做的努力)。以下是获取 urlsf_subset00.tar(以及根据需要获取其他文件)的方法:

  1. 从镜像直接下载(推荐,速度较快):
    • 基础 URL:http://skylion007.github.io/OpenWebTextCorpus/
    • 特定文件:http://skylion007.github.io/OpenWebTextCorpus/urlsf_subset00.tar
    • 下载命令(使用 wgetcurl;如需安装,请运行 sudo apt install wget):
      cd ~/projects/nanoGPT  # 或您的目标目录
      wget http://skylion007.github.io/OpenWebTextCorpus/urlsf_subset00.tar
      
      • 这将文件保存为 ./urlsf_subset00.tar(约 3.3 GB)。这是一个 HTTP 镜像,无需认证,且速度快(直接来自 GitHub Pages)。
      • 对于完整集(所有子集):从页面列出它们并循环下载,或使用脚本:
        for i in {00..13}; do
          wget http://skylion007.github.io/OpenWebTextCorpus/urlsf_subset${i}.tar
        done
        
      • 使用 curl 的替代方案(如果 wget 不可用):
        curl -O http://skylion007.github.io/OpenWebTextCorpus/urlsf_subset00.tar
        
  2. 种子下载(最适合大文件,可恢复且节省带宽):
    • 所有子集的官方种子:来自原始 Gwern 仓库或 Academic Torrents 的磁力链接。
    • 磁力 URI(复制粘贴到客户端,如 qBittorrent、Transmission 或 aria2c):
      magnet:?xt=urn:btih:5b1567f9eed6d1d1a5303a2e1f7a8d6b0a9c8d3e&dn=OpenWebTextCorpus
      
    • 或直接下载 .torrent 文件:从 academictorrents.com 下载或搜索 “OpenWebTextCorpus torrent”。
    • 如需安装种子客户端:
      • Ubuntu/Debian:sudo apt install qbittorrent-nox(无头模式)或使用 GUI。
      • 然后运行:qbittorrent-nox 并添加磁力链接。
    • 预期结果:将所有 14 个压缩包(总计约 40GB)下载到您选择的目录。如果只需部分,请仅选择 urlsf_subset00.tar
  3. GitHub 克隆(如果您需要仓库结构)
    • 语料库元数据在 GitHub 上:https://github.com/skylion007/OpenWebTextCorpus
    • 克隆以获取 README/文档(非数据):
      git clone https://github.com/skylion007/OpenWebTextCorpus.git
      
    • 数据链接在 README 中——指向上述相同的镜像。

下载后步骤

如果问题仍然存在

如果下载成功但在解压/处理时遇到错误,或需要 nanoGPT 后续步骤的帮助,请粘贴详细信息!


Back

x-ai/grok-4-fast

Donate