GPT-2质量审核:流畅的无意义阶段 | AI生成和翻译
======================================================================
质量审计 — GPT-2 760M(步数 76K/445K,验证损失=3.16)
======================================================================
提示 1:“人工智能的历史”
───────────────────────────────────────────────────
✓ 语法正确的句子
✓ 连贯的段落结构
✓ 相关主题(AI、计算机科学)
✗ 事实错误(编造的会议、日期)
✗ 重复(“宇宙的结构”出现3次)
✗ 约100个token后失去连贯性
✗ 混入不相关内容(耶鲁-纽黑文教师研究所)
结论:维基百科风味的文本沙拉。看起来对,读起来错。
提示 2:“def fibonacci(n):”
───────────────────────────────────────────────────
✗ 完全无法生成代码
✗ 生成ISBN号、参考文献条目
✗ 一个样本完全是胡言乱语(“B2p22:B3:B2p2p3...”)
结论:完全没有代码能力。
提示 3:“法国的首都是”
───────────────────────────────────────────────────
✗ 事实错误(“Liguestas, in the province of Aragon”)
✗ 一个样本说“Paris”然后立即自相矛盾
✗ 生成虚假地理(韩国-延寿边境,四川作为中国首都)
✓ 语法连贯
结论:流利但自信地产生幻觉。
提示 4:“从前,有一个机器人,他……”
───────────────────────────────────────────────────
✓ 合理的叙事结构
✓ 一些创意元素
✗ 很快失去情节,变得不连贯
✗ 随机插入圣经引用
✗ 一个样本转向电子游戏论文
结论:具有类似故事的结构,但没有真正的叙事逻辑。
======================================================================
总体评估
======================================================================
它能做什么:
- 生成语法正确的英语
- 保持主题约50-100个token
- 产生看似合理的文本结构(列表、段落)
- 模仿写作风格(维基百科、学术、叙事)
它不能做什么:
- 事实准确性(自信地产生幻觉)
- 代码生成(完全崩溃)
- 长距离连贯性(约100个token后丢失线索)
- 推理或逻辑
- 自一致性(自相矛盾)
对比:
- 优于随机(显然)
- 差于GPT-2 1.5B(2019年),后者损失类似
- 相当于非常早期的自动补全
- 不可用于任何生产任务
结论:
在验证损失=3.16时,模型学习了语言统计
但未理解语言含义。它是一只“随机鹦鹉”
在最字面的意义上——它生成看似合理的文本
却没有任何对意义的理解。
要获得可用的质量,你需要:
- 验证损失<2.5(大致GPT-2水平)
- 这意味着更多训练或更大的模型
- 或者:使用该检查点作为微调的基础
======================================================================
模型处于“流利的胡言乱语”阶段。它生成的文本看起来像英语,但没有事实依据或逻辑连贯性。这在训练完成17%、验证损失=3.16时是预期的——它学习了语言的统计结构,但没有学习语义。