SEC-EDGAR 124M生成审查 | AI生成和翻译
以下是基于SEC-EDGAR 124M生成质量评估的翻译结果:
================================================================ SEC-EDGAR 124M 生成质量评估(第37k步,验证损失2.45) ================================================================
提示1 — 业务概览(医疗健康SaaS)
输入: ~3个段落,4.872亿美元营收,8200名员工,EHR平台 输出: 4个连贯段落,随后完全崩溃
有效部分(第17-20行):
- “我们的业务严重依赖临床试验资源” — 类似SEC的表述,从SaaS转向生物技术框架
- “技术成本基于材料、制造、测试和客户支持成本” — 通用但语法正确
- 保留了●格式的列表结构
失效部分(第22-112行):
- 约200个生成token后,进入“新产品候选商业化”循环,持续90多行
- 编造药物名称:X-Avent、X-Zentib、S-Zentib、Q-partnerib、X-Zitib — 均不存在,但符合制药命名模式
- 自相矛盾:以医疗SaaS开头,变为生物技术
- 语法崩溃:“commercializing our product candidates”被交替用作名词、动词、形容词
长程连贯性:★★☆☆☆ — 维持医疗健康主题,但在3个段落内从SaaS切换到生物技术。不记得原始公司描述(EHR、医院等)。
提示2 — MD&A(收入/成本分析)
输入: 收入增长28%,收入成本增长22%,毛利率64.4% 输出: 第一个延续段落完美,随后10段“收入成本增加/减少X美元”的循环
有效部分(第19行,第一个延续段落):
- “收入成本增加3210万美元,增幅26%……主要归因于收购DMR期间的折旧和摊销费用减少”
- 标准SEC公式:美元金额+百分比+解释
- 引用了一次具体收购(DMR)(捏造但合理)
失效部分(第20-27行):
- 连续10个段落均以“收入成本增加/减少X.X百万美元,或X%”开头
- 数字变得荒谬:“4000万美元,或2%,达到1.071亿美元……来自1.628亿美元”(1.628亿美元的2%并非4000万美元)
- 内部矛盾:“减少6120万美元,或13%,从270万美元降至190万美元”(从270万美元减少6120万美元?)
- 相同句子结构逐字重复,仅数字交换
长程连贯性:★☆☆☆☆ — 第一个延续段落后,完全失去数字一致性。模型学习了MD&A段落的模板,但无法维持算术逻辑。
提示3 — 风险因素
输入: 净亏损4230万美元/6780万美元/8910万美元,累计亏损5.234亿美元 输出: 2个连贯的风险因素段落,随后“产品候选人”循环持续30多行
有效部分(第18-24行):
- “我们的季度收入和经营业绩过去曾出现波动,未来可能继续逐季显著波动” — 标准SEC风险因素语言
- “可能导致我们季度业绩波动的因素包括大型企业合同的时机、医疗保健行业的季节性采购模式” — 具体且合理
- 保持项目符号格式,过渡自然
失效部分(第25-49行):
- 25行内“产品候选人”出现47次
- 递归自指:“我们的产品候选人可能无法开发、开发和商业化我们的产品候选人可能失败”
- 语法崩溃:“我们在研究和开发项目中遇到了多项风险”
- 失去医疗健康SaaS的线索,变为通用生物技术风险因素
长程连贯性:★★★☆☆ — 优于其他提示。更长时间维持风险因素结构(标题+解释)。但内容退化为重复的“产品候选人”循环。模型明显过度依赖训练数据中的生物技术风险因素。
提示4 — 收入确认附注(含表格)
输入: 收入表(订阅3.8亿美元,服务8900万美元,硬件1800万美元)+ 剩余履约义务8.923亿美元 输出: 完美表格回显,一句延续,随后空白
有效部分(第12-25行):
- 表格完全回显 — 保留所有数字、对齐方式和格式
- “分配给剩余履约义务的交易价格总额为8.923亿美元” — 输入内容的精确复制
- 保持了正确的ASC 606语言
失效部分(第26-29行):
- “下表列示了我们所示期间的收入” — 试图开始另一个表格,然后输出空白
- 仅生成约50个有效延续token后崩溃
- 模型无法生成新的表格行 — 只能回显现有内容
长程连贯性:★★☆☆☆ — 回显输入完美,但无法扩展。这是根本限制:模型记住了表格格式,但无法生成新的连贯数字。
提示5 — 股东委托书(高管薪酬表)
输入: 3位高管完整薪酬分解(550万美元、360万美元、300万美元) 输出: 完美表格回显,添加一个中断行,随后空白
有效部分(第14-24行):
- 表格结构完美保留 — 列对齐、美元符号
- 所有3行高管完全回显,数字正确
- “我们的高管薪酬计划旨在吸引、留住和激励” — 正确的委托书样板语言
失效部分(第25行):
- 尝试添加“William R. Gras”作为第四位高管
- 仅生成:“William R. Gras 100,000 $” — 缺少多数列
- 随后空白 — 模型无法继续表格模式
- “Gras”是捏造的名称片段
长程连贯性:★★☆☆☆ — 与提示4相同。完美回显,扩展失败。模型将表格视为可复制的固定模式,而非可扩展的结构化数据。
================================================================ 跨提示模式 ================================================================
- 回显与生成的区别:
- 模型在回显输入(表格、数字、格式)方面表现出色
- 模型在生成维持一致性的新内容方面表现不佳
- 这表明模型学习了表层模式,而非底层数据关系
- 循环吸引子:
- “产品候选商业化”(提示1、3)
- “收入成本增加X百万美元”(提示2)
- “筹集额外资本”(早期测试)
- 这些是训练数据中最常见的SEC短语 — 模型将其作为概率汇点陷入
- 数字连贯性:
- 美元金额:规模合理(100万至5亿美元范围),但内部不一致(无法执行算术运算)
- 百分比:常与引用的美元变化不匹配
- 日期:一致(始终为“2023年12月31日/2022年12月31日”)
- 模型学习了数字的格式,而非含义
- 领域漂移:
- 医疗健康SaaS提示 → 200个token内变为生物技术/制药
- 这表明训练数据以生物技术10-K文件为主
- 或者:生物技术风险因素是模型不确定时生成的“默认”SEC内容
- 语法与逻辑:
- 即使内容无意义,语法结构仍保持正确(“我们在研究和开发项目中遇到了多项风险”)
- 即使在循环中,主谓一致也得以保持
- 这是N元语法层面学习而无推理能力的典型表现
- 表格处理:
- 能以完美对齐方式复制表格
- 无法用新行扩展表格
- 无法维持跨行的数字一致性
- 表明表格格式是作为字符模式学习的,而非结构化数据
================================================================ 总体评估 ================================================================
78%训练的124M模型已学习: ✓ SEC文档结构(标题、项目符号、表格) ✓ 财务词汇和样板语言 ✓ 正确格式(美元符号、百分比、对齐) ✓ 语法句子构建
模型未学习: ✗ 数字一致性(无法执行算术运算) ✗ 长程主题连贯性(漂移到主导训练模式) ✗ 表格扩展(能回显,不能继续) ✗ 事实基础(编造药物名称、收购)
这是124M参数模型的预期表现。GPT-2 1.5B(大12倍)表现出类似但较不严重的模式。该模型适用于:
- 生成SEC样板语言
- 建议章节结构
- 起草看起来像真实SEC申报文件的占位文本
该模型不适用于:
- 生成准确的财务数据
- 维持长篇文档的一致性
- 产生有事实依据的内容