SEC EDGAR 金融预训练语料库

SEC EDGAR 金融预训练语料库 | AI生成和翻译

首页 2026.06

问题： Hugging Face 上的 kapilrao/SEC-EDGAR 数据集是什么？

答案：

这是一个大规模金融文档预训练语料库——590GB、800万份文件、430亿个token——从SEC EDGAR数据库抓取而来。由Datamule、Teraflop AI和Eventual共同构建。

每行数据结构：

文件分类（高token量部分）：

对你为何重要： 你是一家全球银行的AI工程师。这正是适合用于以下场景的领域专用语料库：

datamule-python库也值得收藏——它允许你通过股票代码+文件类型编程拉取文件，绕过EDGAR每秒10次请求的限制。

返回捐助