SEC-EDGAR 124M生成审查

SEC-EDGAR 124M生成审查 | AI生成和翻译

首页 2026.06

以下是基于SEC-EDGAR 124M生成质量评估的翻译结果：

================================================================ SEC-EDGAR 124M 生成质量评估（第37k步，验证损失2.45） ================================================================

提示1 — 业务概览（医疗健康SaaS）

输入： ~3个段落，4.872亿美元营收，8200名员工，EHR平台 输出： 4个连贯段落，随后完全崩溃

有效部分（第17-20行）：

“我们的业务严重依赖临床试验资源” — 类似SEC的表述，从SaaS转向生物技术框架
“技术成本基于材料、制造、测试和客户支持成本” — 通用但语法正确
保留了●格式的列表结构

失效部分（第22-112行）：

约200个生成token后，进入“新产品候选商业化”循环，持续90多行
编造药物名称：X-Avent、X-Zentib、S-Zentib、Q-partnerib、X-Zitib — 均不存在，但符合制药命名模式
自相矛盾：以医疗SaaS开头，变为生物技术
语法崩溃：“commercializing our product candidates”被交替用作名词、动词、形容词

长程连贯性：★★☆☆☆ — 维持医疗健康主题，但在3个段落内从SaaS切换到生物技术。不记得原始公司描述（EHR、医院等）。

提示2 — MD&A（收入/成本分析）

输入： 收入增长28%，收入成本增长22%，毛利率64.4% 输出： 第一个延续段落完美，随后10段“收入成本增加/减少X美元”的循环

有效部分（第19行，第一个延续段落）：

“收入成本增加3210万美元，增幅26%……主要归因于收购DMR期间的折旧和摊销费用减少”
标准SEC公式：美元金额+百分比+解释
引用了一次具体收购（DMR）（捏造但合理）

失效部分（第20-27行）：

连续10个段落均以“收入成本增加/减少X.X百万美元，或X%”开头
数字变得荒谬：“4000万美元，或2%，达到1.071亿美元……来自1.628亿美元”（1.628亿美元的2%并非4000万美元）
内部矛盾：“减少6120万美元，或13%，从270万美元降至190万美元”（从270万美元减少6120万美元？）
相同句子结构逐字重复，仅数字交换

长程连贯性：★☆☆☆☆ — 第一个延续段落后，完全失去数字一致性。模型学习了MD&A段落的模板，但无法维持算术逻辑。

提示3 — 风险因素

输入： 净亏损4230万美元/6780万美元/8910万美元，累计亏损5.234亿美元 输出： 2个连贯的风险因素段落，随后“产品候选人”循环持续30多行

有效部分（第18-24行）：

“我们的季度收入和经营业绩过去曾出现波动，未来可能继续逐季显著波动” — 标准SEC风险因素语言
“可能导致我们季度业绩波动的因素包括大型企业合同的时机、医疗保健行业的季节性采购模式” — 具体且合理
保持项目符号格式，过渡自然

失效部分（第25-49行）：

25行内“产品候选人”出现47次
递归自指：“我们的产品候选人可能无法开发、开发和商业化我们的产品候选人可能失败”
语法崩溃：“我们在研究和开发项目中遇到了多项风险”
失去医疗健康SaaS的线索，变为通用生物技术风险因素

长程连贯性：★★★☆☆ — 优于其他提示。更长时间维持风险因素结构（标题+解释）。但内容退化为重复的“产品候选人”循环。模型明显过度依赖训练数据中的生物技术风险因素。

提示4 — 收入确认附注（含表格）

输入： 收入表（订阅3.8亿美元，服务8900万美元，硬件1800万美元）+ 剩余履约义务8.923亿美元 输出： 完美表格回显，一句延续，随后空白

有效部分（第12-25行）：

表格完全回显 — 保留所有数字、对齐方式和格式
“分配给剩余履约义务的交易价格总额为8.923亿美元” — 输入内容的精确复制
保持了正确的ASC 606语言

失效部分（第26-29行）：

“下表列示了我们所示期间的收入” — 试图开始另一个表格，然后输出空白
仅生成约50个有效延续token后崩溃
模型无法生成新的表格行 — 只能回显现有内容

长程连贯性：★★☆☆☆ — 回显输入完美，但无法扩展。这是根本限制：模型记住了表格格式，但无法生成新的连贯数字。

提示5 — 股东委托书（高管薪酬表）

输入： 3位高管完整薪酬分解（550万美元、360万美元、300万美元） 输出： 完美表格回显，添加一个中断行，随后空白

有效部分（第14-24行）：

表格结构完美保留 — 列对齐、美元符号
所有3行高管完全回显，数字正确
“我们的高管薪酬计划旨在吸引、留住和激励” — 正确的委托书样板语言

失效部分（第25行）：

尝试添加“William R. Gras”作为第四位高管
仅生成：“William R. Gras 100,000 $” — 缺少多数列
随后空白 — 模型无法继续表格模式
“Gras”是捏造的名称片段

长程连贯性：★★☆☆☆ — 与提示4相同。完美回显，扩展失败。模型将表格视为可复制的固定模式，而非可扩展的结构化数据。

================================================================ 跨提示模式 ================================================================

回显与生成的区别：
- 模型在回显输入（表格、数字、格式）方面表现出色
- 模型在生成维持一致性的新内容方面表现不佳
- 这表明模型学习了表层模式，而非底层数据关系
循环吸引子：
- “产品候选商业化”（提示1、3）
- “收入成本增加X百万美元”（提示2）
- “筹集额外资本”（早期测试）
- 这些是训练数据中最常见的SEC短语 — 模型将其作为概率汇点陷入
数字连贯性：
- 美元金额：规模合理（100万至5亿美元范围），但内部不一致（无法执行算术运算）
- 百分比：常与引用的美元变化不匹配
- 日期：一致（始终为“2023年12月31日/2022年12月31日”）
- 模型学习了数字的格式，而非含义
领域漂移：
- 医疗健康SaaS提示 → 200个token内变为生物技术/制药
- 这表明训练数据以生物技术10-K文件为主
- 或者：生物技术风险因素是模型不确定时生成的“默认”SEC内容
语法与逻辑：
- 即使内容无意义，语法结构仍保持正确（“我们在研究和开发项目中遇到了多项风险”）
- 即使在循环中，主谓一致也得以保持
- 这是N元语法层面学习而无推理能力的典型表现
表格处理：
- 能以完美对齐方式复制表格
- 无法用新行扩展表格
- 无法维持跨行的数字一致性
- 表明表格格式是作为字符模式学习的，而非结构化数据

================================================================ 总体评估 ================================================================

78%训练的124M模型已学习： ✓ SEC文档结构（标题、项目符号、表格） ✓ 财务词汇和样板语言 ✓ 正确格式（美元符号、百分比、对齐） ✓ 语法句子构建

模型未学习： ✗ 数字一致性（无法执行算术运算） ✗ 长程主题连贯性（漂移到主导训练模式） ✗ 表格扩展（能回显，不能继续） ✗ 事实基础（编造药物名称、收购）

这是124M参数模型的预期表现。GPT-2 1.5B（大12倍）表现出类似但较不严重的模式。该模型适用于：

生成SEC样板语言
建议章节结构
起草看起来像真实SEC申报文件的占位文本

该模型不适用于：

生成准确的财务数据
维持长篇文档的一致性
产生有事实依据的内容

返回捐助