Transformer并非通用人工智能

Transformer并非通用人工智能 | AI生成和翻译

首页 2026.06

问题： 当前 transformer/LLM 技术是否真的是 AGI，还是仅仅是炒作？

回答：

当前 LLM 并非 AGI——将其称为 AGI 会以误导的方式混淆能力与通用性。以下是基于技术事实的诚实解读：

大规模的下一个 Token 预测。 仅此而已。但在这方面极其出色。只要有足够的参数、数据和计算资源，它们可以学会：

这对于基于文本的任务而言非常强大。但这是一种以通用性为伪装的狭窄能力。

架构上的局限：

请求之间无状态 —— 没有持久记忆、学习或目标表征。每次对话都从头开始。一个孩子学会开车后会记住并改进；而 LLM 则重置。
下一个 Token 预测 ≠ 目标导向行为 —— Transformer 优化的是“接下来该出现哪个词”，而不是“达成这个目标”。规划需要显式的目标表征和因果推理。上下文提示可以模拟规划，但模型实际上并未推理后果——它只是在完成一个模式（“看起来像规划文本的东西是这样写的”）。
无因果干预能力 —— LLM 学习的是相关性。如果没有训练数据中的确切模式，它们无法进行反事实推理（“如果我做 X，那么 Y 会发生”）。真正的智能需要因果模型。
分布偏移下的脆弱性 —— 询问一个略超出其训练分布的问题，它会胡编乱造。人类和动物则能稳健地泛化。这与 AGI 相距甚远。
无法验证自身输出 —— 语言模型无法可靠地告诉你它的答案是否正确。它只是在预测下一个词，而非对照事实进行检验。
学习效率 —— 人类在大约 10,000 小时的接触（约 10^8 个 token）中学会语言。Transformer 需要 10^12 个以上的 token。这存在 10,000 倍的效率差距。

迄今为止，规模缩放定律一直非常可预测——没有出现向“推理”或“理解”的涌现性跃迁。当前观察：

扩展到 10^15 个 token 会改变一切吗？也许吧——但这纯属推测。我们没有任何证据表明堆叠更多 transformer 模块能解决推理或目标表征问题。

一种结合了以下要素的架构：

当前的 transformer 不具备其中任何一项。DeepSeek MoE 和 Claude Opus 只是增量改进——更好的模式匹配，但架构没有本质变化。

LLM 是：

说“当前 LLM 就是 AGI”，相当于说“一个非常好的国际象棋引擎就是通用人工智能”。它在某个领域表现卓越，但通用性需要截然不同的东西。

营销炒作（OpenAI 的“通往 AGI 之路”等）将“复杂的模式匹配”与“理解”混为一谈。这两者不是一回事。不要被投资驱动的宣传所说服。

你应该关注的是： 那些真正将 transformer 与记忆、因果推理以及目标驱动学习相结合的下一个架构。这才是真正的工作所在——而且至少还需要 3 到 5 年，甚至更久。

返回捐助