SEC-EDGAR 124M 质量诊断与改进

SEC-EDGAR 124M 质量诊断与改进 | AI生成和翻译

首页 2026.06

好的，我已经全面审阅了所有内容。以下是我的分析和改进建议。

================================================================ SEC-EDGAR 124M — 质量诊断与改进计划 ================================================================

当前状态：模型： GPT-2 124M（12层，768维）数据： 16.6亿 token，在 RTX 4070 上训练 1 个 epoch 验证损失： ~2.28（最终）质量： SEC 语言/结构良好，但存在循环，并偏向生物技术领域

================================================================ 根本原因 #1：数据仅包含 10-K 申报文件 ================================================================

这是最大的问题。你下载了全部 10 种申报类型（10-K、10-Q、8-K、S-1、S-8、144、20-F、3、4、5），但只有 10-K 实际上有数据（10GB，17 个 parquet 文件）。其余都是空目录（每个 4KB）。

10-K 年度报告主要由生物技术/制药公司主导（数千家小型生物技术公司提交近乎相同的风险因素，涉及“候选产品”）。这解释了：

模型总是偏向生物技术（“候选产品”循环）
“商业化”是排名第一的循环吸引子
在 200 个 token 内从 SaaS 领域漂移到生物技术领域

解决方法：下载其他申报类型。它们能增加多样性：

10-Q：季度更新，行业更多样
8-K：重大事件、并购、高管变动
S-1/S-8：IPO 申报，结构不同
20-F：外国公司申报（不同会计准则）
144：内幕交易申报（简短、结构化）

================================================================ 根本原因 #2：未进行数据清洗 ================================================================

原始 SEC 申报文件包含：

XBRL 内联标签（等）
HTML 遗留内容（含原始 HTML 的表格）
在不同申报文件中逐字重复的样板内容
重复的法律免责声明（数千份申报文件中相同的文本）

模型记住了这些表面模式。这就是为什么它能完美回显表格，但无法生成新内容。

解决方法：在分词前清洗数据：

去除 XBRL/HTML 标签（保留纯文本）
去重近似相同的段落（SimHash 或精确匹配）
规范化空白/格式
可选：分割章节（风险因素、MD&A、财务报表）并使用章节标记进行训练

================================================================ 根本原因 #3：模型容量（124M） ================================================================

124M 参数是 GPT-2 small。它可以学习： ✓ 文档结构和词汇 ✓ 语法正确的句子构建 ✓ 模板模式（标题、项目符号）

它根本上无法学习： ✗ 数值推理（算术一致性） ✗ 长程连贯性（超过 500 个 token） ✗ 表格扩展（需要结构化理解）

解决方法选项（按工作量排序）：

A. 重复训练数据（最简单、免费）：训练 2-3 个 epoch 而非 1 个。验证损失在第 47k 步时仍在下降——更多轮次可能有用。设置 max_iters = 142200（3 倍），并相应调整 lr_decay_iters。风险：对重复数据过拟合。密切监控验证损失。

B. 更好的解码方式（立即生效，无需重新训练）：

使用重复惩罚（1.1-1.3）消除循环
降低温度（0.5-0.6）以获得更集中的输出
使用 top-k=50 或 top-p=0.9 替代纯采样
添加频率惩罚以减少“候选产品”的泛滥

C. 数据清洗 + 重新训练（中等工作量）：清洗 10-K 数据 + 下载其他申报类型。在改进后的语料库上重新训练 2 个 epoch。这是影响最大的变更。

D. 扩大规模（如果有更多 VRAM）： GPT-2 355M（24 层，1024 维）在 12GB VRAM 上可以使用 batch_size=2，grad_accum=16。在长程连贯性方面显著更好。

E. 使用更好的基础模型：不再从零训练，而是在现有 GPT-2 或小型 LLaMA 上对 SEC 数据进行微调。你可以免费获得所有通用语言能力，然后添加领域知识。这是现代方法——现在已经没有人从零训练了。

================================================================ 推荐优先级排序 ================================================================

立即执行（无需重新训练）：
- 在生成代码中添加重复惩罚
- 将温度降至 0.5
- 使用 top-p=0.9 进行测试
短期（1-2 天）：
- 下载 10-Q + 8-K + S-1 申报文件（增加多样性）
- 从现有数据中清洗 XBRL/HTML
- 在清洗后且多样化的数据上重新训练 2 个 epoch
中期：
- 微调预训练模型，而非从零开始训练
- 如果 VRAM 允许，尝试 GPT-2 355M

需要我从其中任何一项开始吗？我可以： a) 修复生成代码，添加重复惩罚 b) 下载缺失的申报类型（10-Q、8-K、S-1 等） c) 编写数据清洗脚本（去除 XBRL/HTML、去重） d) 在预训练的 GPT-2 上搭建微调管道

返回捐助