Transformer并非通用人工智能 | AI生成和翻译

Home 2026.06

问题: 当前 transformer/LLM 技术是否真的是 AGI,还是仅仅是炒作?

回答:

当前 LLM 并非 AGI——将其称为 AGI 会以误导的方式混淆能力与通用性。以下是基于技术事实的诚实解读:

Transformer 真正擅长什么

大规模的下一个 Token 预测。 仅此而已。但在这方面极其出色。只要有足够的参数、数据和计算资源,它们可以学会:

这对于基于文本的任务而言非常强大。但这是一种以通用性为伪装的狭窄能力。

为什么它不是 AGI

架构上的局限:

  1. 请求之间无状态 —— 没有持久记忆、学习或目标表征。每次对话都从头开始。一个孩子学会开车后会记住并改进;而 LLM 则重置。
  2. 下一个 Token 预测 ≠ 目标导向行为 —— Transformer 优化的是“接下来该出现哪个词”,而不是“达成这个目标”。规划需要显式的目标表征和因果推理。上下文提示可以模拟规划,但模型实际上并未推理后果——它只是在完成一个模式(“看起来像规划文本的东西是这样写的”)。
  3. 无因果干预能力 —— LLM 学习的是相关性。如果没有训练数据中的确切模式,它们无法进行反事实推理(“如果我做 X,那么 Y 会发生”)。真正的智能需要因果模型。
  4. 分布偏移下的脆弱性 —— 询问一个略超出其训练分布的问题,它会胡编乱造。人类和动物则能稳健地泛化。这与 AGI 相距甚远。
  5. 无法验证自身输出 —— 语言模型无法可靠地告诉你它的答案是否正确。它只是在预测下一个词,而非对照事实进行检验。
  6. 学习效率 —— 人类在大约 10,000 小时的接触(约 10^8 个 token)中学会语言。Transformer 需要 10^12 个以上的 token。这存在 10,000 倍的效率差距。

规模扩展的问题

迄今为止,规模缩放定律一直非常可预测——没有出现向“推理”或“理解”的涌现性跃迁。当前观察:

扩展到 10^15 个 token 会改变一切吗?也许吧——但这纯属推测。我们没有任何证据表明堆叠更多 transformer 模块能解决推理或目标表征问题。

AGI 真正需要什么

一种结合了以下要素的架构:

当前的 transformer 不具备其中任何一项。DeepSeek MoE 和 Claude Opus 只是增量改进——更好的模式匹配,但架构没有本质变化。

诚实的定位

LLM 是:

说“当前 LLM 就是 AGI”,相当于说“一个非常好的国际象棋引擎就是通用人工智能”。它在某个领域表现卓越,但通用性需要截然不同的东西。

营销炒作(OpenAI 的“通往 AGI 之路”等)将“复杂的模式匹配”与“理解”混为一谈。这两者不是一回事。不要被投资驱动的宣传所说服。

你应该关注的是: 那些真正将 transformer 与记忆、因果推理以及目标驱动学习相结合的下一个架构。这才是真正的工作所在——而且至少还需要 3 到 5 年,甚至更久。


Back Donate