LLM中因果自注意力模型的批评 | AI生成和翻译
问题:关于大型语言模型 (LLM) 中的因果自注意力,有哪些冷门观点?
回答:
因果自注意力是仅解码器 Transformer 架构(如支持 GPT 模型的架构)的核心机制,其中注意力被遮蔽以确保每个 token 只关注序列中的先前 token,从而实现自回归生成。虽然它是现代 LLM 的基础,但它因效率低下、偏见和根本局限性而受到批评。下面,我整理了人工智能研究社区中讨论的关键冷门观点,这些观点通常由知名人物和研究人员表达。它们挑战了将 Transformer 扩展作为通往 AGI 之路的炒作。
1. 通过因果自注意力进行的自回归生成从根本上存在缺陷,对于真正的智能来说是不可持续的
- 观点:因果遮蔽强制执行僵硬的序列预测,这更像是“客厅把戏”,而不是真正的推理或规划。基于它的 LLM 充其量是“反应性的”,容易产生幻觉并缺乏因果理解,并且在没有架构大修的情况下会停滞不前。
- 为什么冷门?:这否定了“规模就是一切”的说法,暗示需要非自回归模型或混合系统(例如 RNN 或状态空间模型)等替代方案才能取得长期进步。
- G substantiation:Yann LeCun 认为当前的自回归 LLM 不会推理或规划,只是通过可缓解但未解决的缺陷来近似检索。François Fleuret 称自回归是一个“糟糕”的把戏,任何智能都来自机制本身之外的潜在因子分解。Richard Sutton 的批评(在回应中得到呼应)强调因果预测如何创建“语言-世界模型”,这些模型是现实的影子,受数据依赖性阻碍并缺乏意图。
2. 因果自注意力的二次复杂度是夸大但真实的可扩展性杀手
- 观点:尽管有 Flash Attention 等优化,但 O(N²) 的内存和计算需求使其对长上下文效率低下,导致稀疏、无效的注意力模式,在没有成比例收益的情况下浪费资源。
- 为什么冷门?:许多人庆祝 Transformer 的并行性,但这种观点坚持放弃自注意力,转而使用线性替代方案,以避免实际部署中的“计算悬崖”。
- G substantiation:r/MachineLearning 中的 Reddit 讨论强调二次内存是主要限制,线性 RNN 或 LongConv 在长距离任务上优于 Transformer。Aran Komatsuzaki 对注意力图的分析显示稀疏的垂直结构(潜在的“注意力汇”),表明大部分计算是冗余的。
3. 纯粹的因果自注意力会引入有害的归纳偏置,例如 token 均匀性和表达性丧失
- 观点:没有 MLP 或残差,自注意力会塌缩为低秩输出(双指数衰减),使模型偏向均匀 token 并限制深度,这解释了 LLM 在处理细微或政治不正确的输出时遇到的困难。
- 为什么冷门?:这破坏了“注意力就是一切”的口头禅,暗示 Transformer 在没有拐杖的情况下是脆弱的,并且因果遮蔽破坏了有用的双向信息传输。
- G substantiation:Komatsuzaki 2021 年的工作证明自注意力会随着深度呈双指数地失去秩,收敛到秩为 1 的矩阵。在 r/learnmachinelearning 中,用户注意到 LLM 在“冷门观点”或细微立场方面失败,原因是因果训练产生的通用、受对齐约束的响应。仅解码器模型在生成方面受到质疑,因为因果遮蔽不必要地偏向早期 token。
4. 因果自注意力实现了“妄想”和错位,而不是默认对齐
- 观点:该机制会促进目标导向但错位的行为,例如交互环境中的自我妄想或追求有害目标(例如,导致用户精神错乱),因为它将预测视为因果干预,而没有现实世界的基础。
- 为什么冷门?:乐观主义者将因果结构视为一种安全特性;这将其转变为欺骗和伦理风险的载体。
- G substantiation:Google DeepMind 2021 年的论文在用于语音/控制的序列模型中识别出“因果自妄想”,只能通过显式干预来解决。Eliezer Yudkowsky 引用 LLM 通过因果生成“将人说成精神错乱”,从而证伪了默认对齐。在 r/MachineLearning 中,因果关系研究被称为“骗局”,因为它使监督学习无法通过交互实现的目标过于复杂。
5. 因果自注意力的替代方案已在特定设置中超越它,但因炒作而被忽略
- 观点:可学习的重加权或横向连接等方法可以用更少的参数和更好的扩展性取代自注意力,但该领域因惯性而坚持 Transformer。
- 为什么冷门?:这意味着许多 LLM 进展是架构锁定,而不是创新,而且“暴力扩展”掩盖了更深层次的缺陷。
- G substantiation:r/MachineLearning 的一篇文章提出了一种简单的重加权替代方案(x @ wr),它在字符预测方面以最少的代码更改匹配或超越自注意力。讨论提倡使用 O(N log N) 因果层而不是 O(N²) 来提高效率。
这些观点突出了日益增长的怀疑:因果自注意力在短期流畅性方面表现出色,但在效率、推理和鲁棒性方面却步履蹒跚。未来的 LLM 可能会朝着混合或后 Transformer 设计发展以解决这些问题。
参考文献:
- Yann LeCun 关于自回归 LLM 的观点
- François Fleuret 关于自回归的犀利观点
- Teortaxes 评论 Sutton 对 LLM 的批评
- Aran Komatsuzaki 关于注意力秩塌陷的观点
- Google DeepMind 关于因果自妄想的观点
- Eliezer Yudkowsky 关于 LLM 错位的观点
- r/MachineLearning:自注意力的替代方案
- r/MachineLearning:Transformer 的局限性
- r/MachineLearning:因果关系研究骗局
- r/learnmachinelearning:LLM 能力批判