SEC-EDGAR 124M 质量诊断与改进 | AI生成和翻译

Home 2026.06

好的,我已经全面审阅了所有内容。以下是我的分析和改进建议。

================================================================ SEC-EDGAR 124M — 质量诊断与改进计划 ================================================================

当前状态: 模型: GPT-2 124M(12层,768维) 数据: 16.6亿 token,在 RTX 4070 上训练 1 个 epoch 验证损失: ~2.28(最终) 质量: SEC 语言/结构良好,但存在循环,并偏向生物技术领域

================================================================ 根本原因 #1:数据仅包含 10-K 申报文件 ================================================================

这是最大的问题。你下载了全部 10 种申报类型 (10-K、10-Q、8-K、S-1、S-8、144、20-F、3、4、5), 但只有 10-K 实际上有数据(10GB,17 个 parquet 文件)。 其余都是空目录(每个 4KB)。

10-K 年度报告主要由生物技术/制药公司主导 (数千家小型生物技术公司提交近乎相同的风险因素,涉及“候选产品”)。 这解释了:

解决方法:下载其他申报类型。它们能增加多样性:

================================================================ 根本原因 #2:未进行数据清洗 ================================================================

原始 SEC 申报文件包含:

模型记住了这些表面模式。这就是为什么它能 完美回显表格,但无法生成新内容。

解决方法:在分词前清洗数据:

  1. 去除 XBRL/HTML 标签(保留纯文本)
  2. 去重近似相同的段落(SimHash 或精确匹配)
  3. 规范化空白/格式
  4. 可选:分割章节(风险因素、MD&A、财务报表) 并使用章节标记进行训练

================================================================ 根本原因 #3:模型容量(124M) ================================================================

124M 参数是 GPT-2 small。它可以学习: ✓ 文档结构和词汇 ✓ 语法正确的句子构建 ✓ 模板模式(标题、项目符号)

它根本上无法学习: ✗ 数值推理(算术一致性) ✗ 长程连贯性(超过 500 个 token) ✗ 表格扩展(需要结构化理解)

解决方法选项(按工作量排序):

A. 重复训练数据(最简单、免费): 训练 2-3 个 epoch 而非 1 个。验证损失在 第 47k 步时仍在下降——更多轮次可能有用。设置 max_iters = 142200(3 倍),并相应调整 lr_decay_iters。 风险:对重复数据过拟合。密切监控验证损失。

B. 更好的解码方式(立即生效,无需重新训练):

C. 数据清洗 + 重新训练(中等工作量): 清洗 10-K 数据 + 下载其他申报类型。 在改进后的语料库上重新训练 2 个 epoch。 这是影响最大的变更。

D. 扩大规模(如果有更多 VRAM): GPT-2 355M(24 层,1024 维)在 12GB VRAM 上 可以使用 batch_size=2,grad_accum=16。在长程连贯性方面 显著更好。

E. 使用更好的基础模型: 不再从零训练,而是在现有 GPT-2 或小型 LLaMA 上 对 SEC 数据进行微调。你可以免费获得所有 通用语言能力,然后添加领域知识。 这是现代方法——现在已经没有人从零训练了。

================================================================ 推荐优先级排序 ================================================================

  1. 立即执行(无需重新训练):
    • 在生成代码中添加重复惩罚
    • 将温度降至 0.5
    • 使用 top-p=0.9 进行测试
  2. 短期(1-2 天):
    • 下载 10-Q + 8-K + S-1 申报文件(增加多样性)
    • 从现有数据中清洗 XBRL/HTML
    • 在清洗后且多样化的数据上重新训练 2 个 epoch
  3. 中期:
    • 微调预训练模型,而非从零开始训练
    • 如果 VRAM 允许,尝试 GPT-2 355M

需要我从其中任何一项开始吗?我可以: a) 修复生成代码,添加重复惩罚 b) 下载缺失的申报类型(10-Q、8-K、S-1 等) c) 编写数据清洗脚本(去除 XBRL/HTML、去重) d) 在预训练的 GPT-2 上搭建微调管道


Back Donate