提示生成退化为重复循环 | AI生成和翻译
以下是SEC-EDGAR 124M长提示生成质量的完整摘要:
================================================================ SEC-EDGAR 124M — 长提示生成测试结果 (训练步数37k/47.4k,验证损失2.45,已训练78%) ================================================================
提示1:财务报表附注(ASC 606收入确认)
- 输入:966字符的标准会计政策文本
- 输出:约2000字符的良好延续内容,随后退化为重复“公司确认收入在……”的句式且略有变化,最终出现乱码字符(vvvvvvvvv)
- 评估:前3-4段内容连贯准确,符合SEC行文规范
提示2:管理层讨论与分析(生物制药公司概况)
- 输入:1388字符的临床阶段公司描述
- 输出:较好地延续了制药叙事——提及ABC-123、溶酶体贮积症、累计亏损2.453亿美元。随后在剩余约800个token中反复循环“筹集额外资本”/“产生重大亏损”
- 评估:前2-3段延续良好,之后进入重复循环
提示3:风险因素(生物制药)
- 输入:1726字符的风险因素模板文本
- 输出:继续涉及新冠疫情风险、监管风险、融资风险。出现“CARVID-19”(虚构名称)。循环围绕“筹集额外融资”主题
- 评估:风险因素语言逼真,存在部分虚构内容
提示4:含数字的财务表格
- 输入:2002字符的完整利润表+说明性叙述
- 输出:正确复述表格内容,延续“收入增长主要由订阅平台增长42%驱动”(逻辑连贯!),随后跳转至2005/2004财年的内容,并循环市场营销/广告费用
- 评估:最佳延续——表格后第一段表现良好
================================================================ 模式总结:
- 模型对叙事性提示(500+字符)在前2-4段表现良好
- 生成约300-500个token后陷入重复循环
- 表格/资产负债表循环更快(约200个token)
- “收入确认”和“筹集额外资本”是最大的循环吸引点——在训练数据中非常常见
- 温度0.7 vs 0.8:变化较少但循环行为相同
-
虚构事实(CARVID-19、2005财年)表明是模式匹配而非事实回忆
这对训练78%的124M模型而言属于典型表现。语言质量扎实——恰当的SEC术语、真实的数字、正确的格式。主要弱点是长文本生成时退化为循环,训练完成后应有所改善。
Tmux会话sec-sample仍处于活跃状态——您可以通过以下命令运行更多提示:
tmux attach -t sec-sample