使用代理访问Hugging Face数据集 | AI生成和翻译

Home 2025.11

是的 — datasets 遵循您的系统/环境代理设置，但没有独立的代理配置。所以当您在中国时，完全可以通过代理让 Hugging Face 下载数据集。

具体方法如下。

如何让 `load_dataset` 使用代理（中国用户适用）

datasets 内部使用 Python 的 requests 库。 requests 会自动读取标准代理环境变量：

export HTTP_PROXY="http://127.0.0.1:7890"
export HTTPS_PROXY="http://127.0.0.1:7890"

若使用 SOCKS5 代理：

export HTTP_PROXY="socks5://127.0.0.1:1080"
export HTTPS_PROXY="socks5://127.0.0.1:1080"

setx HTTP_PROXY "http://127.0.0.1:7890"
setx HTTPS_PROXY "http://127.0.0.1:7890"

设置后请重启终端。

import os

os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'

此方法稳定可靠。

可通过以下代码测试：

import requests
print(requests.get("https://api.ipify.org?format=json").text)

若显示的 IP 是代理出口节点，则 Hugging Face 数据集下载也会经由该代理。

datasets 内部依赖 huggingface_hub，该库同样支持：

因此设置环境变量后，模型与数据集下载都会自动使用代理。

请告诉我您的具体需求。

Back Donate