SEC-EDGAR 124M生成测试 | AI生成和翻译
以下是长提示生成质量的完整总结:
================================================================
SEC-EDGAR 124M — 长提示生成测试结果
(训练步数 37k/47.4k,验证损失 2.45,已完成 78% 训练)
================================================================
提示 1:财务报表附注(ASC 606 收入确认)
- 输入:966 字符的标准会计政策文本
- 输出:约 2000 字符的合理延续,随后退化为重复
"公司确认收入当……" 并伴有细微变化,最终出现乱码字符(vvvvvvvvv)
- 结论:前 3-4 段内容连贯且符合 SEC 语言规范
提示 2:管理层讨论与分析(生物制药公司概况)
- 输入:1388 字符的临床阶段公司描述
- 输出:较好地延续了制药叙事——提及 ABC-123、
溶酶体贮积症、累计亏损 2.453 亿美元。
随后在剩余约 800 个 token 中严重循环 "筹集额外资本" / "产生重大损失"
- 结论:延续 2-3 段表现良好,之后进入重复循环
提示 3:风险因素(生物制药)
- 输入:1726 字符的风险因素模板文本
- 输出:延续了 COVID-19 大流行风险、监管风险、
融资风险。提及 "CARVID-19"(虚构名称)。
循环主题为 "筹集额外融资"
- 结论:风险因素语言逼真,存在部分虚构信息
提示 4:带数字的财务表格
- 输入:2002 字符的完整损益表及叙述性说明
- 输出:正确复现表格,延续 "收入增长主要得益于
订阅平台增长 42%"(内容连贯!),随后跳至 2005/2004 财年内容
并围绕营销/广告费用循环
- 结论:最佳延续——表格后的第一段表现良好
================================================================
模式总结:
- 模型对叙事性提示(500 字符以上)能良好处理 2-4 段
- 生成约 300-500 个 token 后陷入重复循环
- 表格/资产负债表循环更快(约 200 个 token)
- "收入确认" 和 "筹集额外资本" 是最大的
循环吸引点——在训练数据中非常常见
- 温度为 0.7 与 0.8 对比:变化较少但循环行为相同
- 虚构事实(CARVID-19、2005 财年)表明模型是在进行模式匹配,
而非事实回忆
================================================================
这对一个完成 78% 训练的 124M 模型来说属于典型表现。语言质量
扎实——符合 SEC 术语、数字合理、格式正确。
主要弱点是生成长文本时会退化为循环,
训练完成后应会有所改善。
Tmux 会话 sec-sample 仍处于活跃状态——您可以通过以下命令运行更多提示:
tmux attach -t sec-sample