Transformer并非通用人工智能 | AI生成和翻译
问题: 当前 transformer/LLM 技术是否真的是 AGI,还是仅仅是炒作?
回答:
当前 LLM 并非 AGI——将其称为 AGI 会以误导的方式混淆能力与通用性。以下是基于技术事实的诚实解读:
Transformer 真正擅长什么
大规模的下一个 Token 预测。 仅此而已。但在这方面极其出色。只要有足够的参数、数据和计算资源,它们可以学会:
- 对语言结构进行建模并编码语义关系
- 跨领域进行模式匹配,并具备一定的迁移能力
- 遵循指令并参与多步推理(通过上下文提示)
- 生成与训练数据分布一致的合理续写
这对于基于文本的任务而言非常强大。但这是一种以通用性为伪装的狭窄能力。
为什么它不是 AGI
架构上的局限:
- 请求之间无状态 —— 没有持久记忆、学习或目标表征。每次对话都从头开始。一个孩子学会开车后会记住并改进;而 LLM 则重置。
- 下一个 Token 预测 ≠ 目标导向行为 —— Transformer 优化的是“接下来该出现哪个词”,而不是“达成这个目标”。规划需要显式的目标表征和因果推理。上下文提示可以模拟规划,但模型实际上并未推理后果——它只是在完成一个模式(“看起来像规划文本的东西是这样写的”)。
- 无因果干预能力 —— LLM 学习的是相关性。如果没有训练数据中的确切模式,它们无法进行反事实推理(“如果我做 X,那么 Y 会发生”)。真正的智能需要因果模型。
- 分布偏移下的脆弱性 —— 询问一个略超出其训练分布的问题,它会胡编乱造。人类和动物则能稳健地泛化。这与 AGI 相距甚远。
- 无法验证自身输出 —— 语言模型无法可靠地告诉你它的答案是否正确。它只是在预测下一个词,而非对照事实进行检验。
- 学习效率 —— 人类在大约 10,000 小时的接触(约 10^8 个 token)中学会语言。Transformer 需要 10^12 个以上的 token。这存在 10,000 倍的效率差距。
规模扩展的问题
迄今为止,规模缩放定律一直非常可预测——没有出现向“推理”或“理解”的涌现性跃迁。当前观察:
- 损失随计算量平滑缩放(尚未出现相变)
- 能力提升与数据集多样性和参数数量相关
- 但基本局限(上下文长度、记忆、因果推理)并不会随着规模扩大而消失
扩展到 10^15 个 token 会改变一切吗?也许吧——但这纯属推测。我们没有任何证据表明堆叠更多 transformer 模块能解决推理或目标表征问题。
AGI 真正需要什么
一种结合了以下要素的架构:
- 持久记忆(不仅仅是上下文窗口)
- 目标表征(内在目标,而非仅仅是下一个 token 的损失)
- 因果模型(干预、反事实、规划)
- 反馈整合(从结果中实时学习,而不仅仅是监督训练)
- 具身性(与环境交互,对照现实进行验证)
当前的 transformer 不具备其中任何一项。DeepSeek MoE 和 Claude Opus 只是增量改进——更好的模式匹配,但架构没有本质变化。
诚实的定位
LLM 是:
- ✅ 在语言理解和生成方面非常出色
- ✅ 作为工具(检索、摘要、代码生成)很有用
- ✅ 足够优秀,具有经济意义
- ❌ 不是通用智能
- ❌ 没有根本性的架构变革,不可能接近 AGI
说“当前 LLM 就是 AGI”,相当于说“一个非常好的国际象棋引擎就是通用人工智能”。它在某个领域表现卓越,但通用性需要截然不同的东西。
营销炒作(OpenAI 的“通往 AGI 之路”等)将“复杂的模式匹配”与“理解”混为一谈。这两者不是一回事。不要被投资驱动的宣传所说服。
你应该关注的是: 那些真正将 transformer 与记忆、因果推理以及目标驱动学习相结合的下一个架构。这才是真正的工作所在——而且至少还需要 3 到 5 年,甚至更久。