Hugging Face上已验证的金融数据集 | AI生成和翻译

Home 2026.06

以下是经过验证的答案。我通过实际访问每个数据集的 Hugging Face 页面进行了核查。之前的答案中至少有 3 个失效链接。


Hugging Face 上已验证的金融数据集(2026 年 6 月)

我逐一检查了每个 URL。以下是实际存在的数据集,按训练阶段分类。


第一层级:预训练语料库(对标 FineWeb 的尝试)

kapilrao/SEC-EDGAR — 最接近金融领域 FineWeb 的数据集

eloukas/edgar-corpus — 学术版,规模更小、更干净

Brianferrell787/financial-news-multisource — 大规模新闻语料库

PleIAs/SEC — 经清洗的 SEC 文件文本

JanosAudran/financial-reports-sec — 带结构的已解析 10-K 文件


第二层级:指令微调 / SFT

Josephgflowers/Finance-Instruct-500k — 最大的 SFT 集合

sujet-ai/Sujet-Finance-Instruct-177k — 精选多任务数据集

nvidia/Nemotron-SpecializedDomains-Finance-v1 — NVIDIA 的合成问答数据集

FinGPT/fingpt-sentiment-train — 情感分析 SFT

TheTokenFactory/sec-contracts-financial-extraction-instructions — 结构化提取


第三层级:数值推理 / 数学(用于 GRPO/DPO)

TheFinAI/FinCoT — 金融领域思维链推理

ibm-research/finqa — IBM 的金融问答基准

yale-nlp/FinanceMath — 数理金融问题

virattt/financial-qa-10K — 基于 10-K 文件的问答


第四层级:基准测试与评估

SALT-NLP/FLUE-FiQA — FLUE 基准

yixuantt/FinEntity — 实体级情感分析(EMNLP 2023)

takala/financial_phrasebank — 经典情感分析基准

zeroshot/twitter-financial-news-sentiment — Twitter 金融情感


第五层级:结构化 / 市场数据

defeatbeta/yahoo-finance-data — 价格 + 基本面数据

glopardo/sp500-earnings-transcripts — 财报电话会议记录

Josephgflowers/Financial-NER-NLP — 金融命名实体识别


缺失部分(诚实评估)

目前并没有一个单一的、对标 FineWeb 的金融数据集。最接近的情况如下:

类比 是否存在? 替代方案
FineWeb(网页爬取 → 清洗) kapilrao/SEC-EDGAR(430 亿 token 文件数据)+ Brianferrell787/financial-news-multisource(5710 万行新闻数据)
BigCode(The Stack) 金融代码过于小众;使用通用代码 + 金融 SFT
Dolma(AI2 预训练混合) 从上述数据集中自行构建混合

BloombergGPT 使用 3630 亿专有 token 进行训练。在开放数据中,仅 SEC-EDGAR 即可获得约 430 亿 token,外加约 5710 万行新闻数据。如果混合得当,总计大约 500-600 亿 token — 与 BloombergGPT 的语料库规模相当。


为你的 MI300X 推荐的堆栈

# 预训练(领域自适应)
pretrain = [
    "kapilrao/SEC-EDGAR",                    # 430 亿 token,文件数据
    "Brianferrell787/financial-news-multisource",  # 5710 万行,新闻数据
]

# SFT
sft = [
    "Josephgflowers/Finance-Instruct-500k",  # 50 万条多任务数据
    "nvidia/Nemotron-SpecializedDomains-Finance-v1",  # 32.6 万合成问答,可商用
    "FinGPT/fingpt-sentiment-train",         # 情感分析
]

# 推理(GRPO/DPO)
reasoning = [
    "TheFinAI/FinCoT",                       # 思维链
    "ibm-research/finqa",                    # 数值问答
]

# 评估
eval_ds = [
    "takala/financial_phrasebank",           # 情感分析基准
    "SALT-NLP/FLUE-FiQA",                   # FLUE 基准
    "yixuantt/FinEntity",                    # 实体级情感
]

参考资料:


Back Donate