SEC-EDGAR 124M生成审查 | AI生成和翻译

Home 2026.06

以下是基于SEC-EDGAR 124M生成质量评估的翻译结果:

================================================================ SEC-EDGAR 124M 生成质量评估(第37k步,验证损失2.45) ================================================================

提示1 — 业务概览(医疗健康SaaS)

输入: ~3个段落,4.872亿美元营收,8200名员工,EHR平台 输出: 4个连贯段落,随后完全崩溃

有效部分(第17-20行):

失效部分(第22-112行):

长程连贯性:★★☆☆☆ — 维持医疗健康主题,但在3个段落内从SaaS切换到生物技术。不记得原始公司描述(EHR、医院等)。

提示2 — MD&A(收入/成本分析)

输入: 收入增长28%,收入成本增长22%,毛利率64.4% 输出: 第一个延续段落完美,随后10段“收入成本增加/减少X美元”的循环

有效部分(第19行,第一个延续段落):

失效部分(第20-27行):

长程连贯性:★☆☆☆☆ — 第一个延续段落后,完全失去数字一致性。模型学习了MD&A段落的模板,但无法维持算术逻辑。

提示3 — 风险因素

输入: 净亏损4230万美元/6780万美元/8910万美元,累计亏损5.234亿美元 输出: 2个连贯的风险因素段落,随后“产品候选人”循环持续30多行

有效部分(第18-24行):

失效部分(第25-49行):

长程连贯性:★★★☆☆ — 优于其他提示。更长时间维持风险因素结构(标题+解释)。但内容退化为重复的“产品候选人”循环。模型明显过度依赖训练数据中的生物技术风险因素。

提示4 — 收入确认附注(含表格)

输入: 收入表(订阅3.8亿美元,服务8900万美元,硬件1800万美元)+ 剩余履约义务8.923亿美元 输出: 完美表格回显,一句延续,随后空白

有效部分(第12-25行):

失效部分(第26-29行):

长程连贯性:★★☆☆☆ — 回显输入完美,但无法扩展。这是根本限制:模型记住了表格格式,但无法生成新的连贯数字。

提示5 — 股东委托书(高管薪酬表)

输入: 3位高管完整薪酬分解(550万美元、360万美元、300万美元) 输出: 完美表格回显,添加一个中断行,随后空白

有效部分(第14-24行):

失效部分(第25行):

长程连贯性:★★☆☆☆ — 与提示4相同。完美回显,扩展失败。模型将表格视为可复制的固定模式,而非可扩展的结构化数据。

================================================================ 跨提示模式 ================================================================

  1. 回显与生成的区别:
    • 模型在回显输入(表格、数字、格式)方面表现出色
    • 模型在生成维持一致性的新内容方面表现不佳
    • 这表明模型学习了表层模式,而非底层数据关系
  2. 循环吸引子:
    • “产品候选商业化”(提示1、3)
    • “收入成本增加X百万美元”(提示2)
    • “筹集额外资本”(早期测试)
    • 这些是训练数据中最常见的SEC短语 — 模型将其作为概率汇点陷入
  3. 数字连贯性:
    • 美元金额:规模合理(100万至5亿美元范围),但内部不一致(无法执行算术运算)
    • 百分比:常与引用的美元变化不匹配
    • 日期:一致(始终为“2023年12月31日/2022年12月31日”)
    • 模型学习了数字的格式,而非含义
  4. 领域漂移:
    • 医疗健康SaaS提示 → 200个token内变为生物技术/制药
    • 这表明训练数据以生物技术10-K文件为主
    • 或者:生物技术风险因素是模型不确定时生成的“默认”SEC内容
  5. 语法与逻辑:
    • 即使内容无意义,语法结构仍保持正确(“我们在研究和开发项目中遇到了多项风险”)
    • 即使在循环中,主谓一致也得以保持
    • 这是N元语法层面学习而无推理能力的典型表现
  6. 表格处理:
    • 能以完美对齐方式复制表格
    • 无法用新行扩展表格
    • 无法维持跨行的数字一致性
    • 表明表格格式是作为字符模式学习的,而非结构化数据

================================================================ 总体评估 ================================================================

78%训练的124M模型已学习: ✓ SEC文档结构(标题、项目符号、表格) ✓ 财务词汇和样板语言 ✓ 正确格式(美元符号、百分比、对齐) ✓ 语法句子构建

模型未学习: ✗ 数字一致性(无法执行算术运算) ✗ 长程主题连贯性(漂移到主导训练模式) ✗ 表格扩展(能回显,不能继续) ✗ 事实基础(编造药物名称、收购)

这是124M参数模型的预期表现。GPT-2 1.5B(大12倍)表现出类似但较不严重的模式。该模型适用于:

该模型不适用于:


Back Donate