阿希什·瓦斯瓦尼谈 Transformer 和注意力机制 | AI生成和翻译

Home 2026.01

问题：根据 Ashish Vaswani 的 YouTube 视频和论文，他对 Transformer 和 attention 机制有哪些评论？请提供一份全面的讲座稿。

回答：

全面讲座：Ashish Vaswani 关于 Transformer 和 Attention 机制的见解

引言

各位好。今天，我们将通过 Ashish Vaswani 的视角深入探讨 Transformer 和 attention 机制的世界。他是 2017 年开创性论文《Attention Is All You Need》的第一作者。作为 Transformer 架构的共同发明人，Vaswani 在学术论文、讲座和采访中广泛分享了他的见解。本讲座综合了他来自关键来源的评论，包括他的开创性论文、Stanford CS25 和 CS224N 讲座、在 Essential AI 上的讨论，以及在更广泛的 AI 对话中的反思。我们将涵盖历史背景、技术基础、开发历程、影响以及未来方向。Vaswani 的观点强调了 Transformer 在简化 AI 架构、实现 parallelism（并行性）和促进研究开放性方面的作用，同时也承认了效率和泛化等持续存在的挑战。

历史背景与动机

Vaswani 经常将 Transformer 的起源追溯到 AI 的广阔历史，从 1956 年的 Dartmouth Conference 开始。他将这次活动——由 John McCarthy、Marvin Minsky 和 Claude Shannon 等先驱参加——描述为一次雄心勃勃的尝试，旨在通过基于规则的系统在机器中模拟人类智能。然而，这些早期努力低估了智能的复杂性和计算能力的局限性，导致了由于方法细碎化而产生的 AI 寒冬。

到 2010 年代初，natural language processing (NLP) 仍依赖于复杂的 pipeline 来处理机器翻译等任务，涉及词对齐（word alignments）、短语提取（phrase extractions）和使用神经网络语言模型进行重评分。Vaswani 强调了对 recurrent neural networks (RNNs) 和 long short-term memory (LSTM) 模型的失望，因为它们是顺序处理且缓慢的，难以处理语言中的长程依赖（long-range dependencies）和层次结构。例如，RNN 将信息压缩到固定大小的向量中，使得共指消解（co-reference resolution）等任务变得困难。

Transformer 的动力源于对 parallelism 和效率的追求。Vaswani 指出，卷积模型改善了局部依赖处理，但需要深层堆叠才能实现全局交互。Attention 机制最初用于机器翻译的 encoder-decoder 结构（灵感来自 computer vision 中的 non-local means），它允许选择性地关注输入序列的相关部分。这演变成了 self-attention，使 token 能够直接交互，绕过了循环结构。

在他的反思中，Vaswani 回忆起 2017 年 Google Brain 那种“充满电性”的研究环境，当时诸如用于语言的 diffusion models 等想法激发了 Transformer 的产生。其核心见解是将 attention 重新用于 representation learning（表示学习），使模型能够更有效地处理变长数据。

Attention 机制：核心构建模块

Attention 是 Vaswani 贡献的核心。在 2017 年的论文中，他和合著者将其定义为一个基于内容的存储检索系统（content-based memory retrieval system）。对于序列中的每个位置，通过线性变换生成一个 query，通过点积将其与 key（来自所有位置）进行比较，并除以维度平方根以防止不稳定性，最后经过 softmax 产生权重。这些权重随后对各位置的 value 进行加权平均，创建上下文感知（context-aware）的表示。

Vaswani 强调了 attention 的 parallelism：与处理过程是顺序的 RNN 不同，attention 允许所有 token 通过矩阵运算同时交互，这使得它对 GPU 非常友好。它是排列不变的（permutation-invariant），因此需要添加 positional encodings（如正弦波或可学习的编码）来保持顺序。他批评 single-head attention 会平均 embedding，从而稀释信息（例如在“the cat licked the owner’s hand”这种歧义句子中）。Multi-head attention 通过投影到多个子空间解决了这个问题，允许不同的视角——有些 head 关注局部模式（模拟卷积），有些关注长距离关系。

在文本之外的扩展中，Vaswani 讨论了 attention 建模自相似性（self-similarity）的能力。对于图像，它将 patch 视为 token，从而实现超分辨率等任务。在音乐中，relative attention 引入了距离感知项，通过在没有绝对位置的情况下捕捉重复基元，提高了长序列的连贯性。这使得 attention 具有平移等变性（translationally equivariant），对图（graphs）和机器人技术非常有用。

Vaswani 认为 attention 提供了与数据对称性一致的 inductive biases（归纳偏置），例如自然数据中的自相似性。然而，他也指出了长上下文下二次方复杂度（quadratic complexity）的挑战，并提出了 sparse attention、滑动窗口或检索增强记忆（retrieval-augmented memory）等解决方案。

Transformer 架构：设计与创新

正如论文中所介绍的，Transformer 是一种完全基于 attention 的 encoder-decoder 模型，摒弃了循环和卷积。Encoder 使用 self-attention 和带有 residual（残差）的 feed-forward 层；decoder 则增加了 causal self-attention（掩码未来位置）和 encoder-decoder attention。Residual connections 保留了位置信息，而 layer normalization（为了稳定性采用 pre-layer norm）有助于训练。

Vaswani 强调了该架构的简洁与高效：它实现了依赖关系的恒定路径长度、随数据规模无限增长的记忆能力以及完全的 parallelism。从经验上看，它在 WMT 2014 翻译任务上设定了新基准（例如，在 8 个 GPU 上训练 3.5 天后，英法翻译达到 41.8 BLEU），以更少的 FLOPs 超越了集成模型。他将成功归功于优化友好的设计（如显式的成对连接），而非相对于 LSTM 的卓越表达能力。

创新之处包括用于多变子空间的 multi-head attention 和 positional encodings。后来的演变，如相对位置嵌入（如 rotary embeddings），允许外推到更长的序列。Vaswani 还探索了 non-autoregressive generation（非自回归生成）以克服顺序瓶颈，尽管排序挑战依然存在——模型在没有 oracle 的情况下难以处理条件独立性。

在应用方面，Transformer 将 NLP pipeline 整合为同质神经网络，实现了大规模的自我监督学习（如 GPT, BERT）。Vaswani 将其扩展到多模态任务：通过自回归 patch 建模生成图像，以及通过符号 MIDI 序列生成音乐，实现了更好的 perplexity（困惑度）和类人输出。

对 AI 和 NLP 的影响

Vaswani 将 Transformer 描述为 NLP 的一次“整合”，用数据驱动的神经网络取代了专门的 pipeline。它们彻底改变了机器翻译（如 Google’s Neural Machine Translation），实现了 state-of-the-art 的结果并促成了大规模部署。除文本外，其影响还包括：

图像与视觉：建模自相似性用于去噪和生成，表现优于 PixelSNAIL 等模型。
音乐与音频：捕捉长程重复，改善作曲中的延续性。
机器人与规划：使用大模型作为 planner（规划器），利用文本中的世界知识。
泛化性：融合海量训练数据进行创意任务，尽管分布外（out-of-distribution）的表现仍然有限。

2017 年论文的公开发布引发了飞速进步，到 2025 年引用量已超过 17.3 万次。Vaswani 将进步归功于协作和开放，并警告说，在 AI 前沿减少分享可能会阻碍突破。在他创立的 startup Essential AI 中，Transformer 为用于软件工程和探索的开源模型提供支持，并引入了 Muon optimizer 和 AMD MI300X 扩展等创新。

可解释性是一个加分项：attention heads 揭示了模式，有些像卷积一样是局部的，有些是全局的。大模型中的涌现行为（emergent behaviors）令 Vaswani 感到惊讶，这表明人机协作中仍有未开发的潜力。

挑战与未来方向

尽管持乐观态度，Vaswani 也承认局限性。长上下文处理受困于二次方成本；解决方案包括 sparse/content-based attention、为了内存效率的 multi-query attention，以及用于 GPU 优化的 Flash Attention。由于学习排序的问题，Non-autoregressive decoding 仍难以实现。

展望未来，Vaswani 愿景如下：

效率提升：更好的数据清洗（2 倍潜力）、具有卓越扩展性的替代架构、低精度训练（如 FP8）以及 speculative decoding（投机采样）。
开放生态系统：在 3-5 年内，开源模型将通过湿实验室（wet-lab）互惠，辅助定理证明、哲学研究和药物研发。
模块化：Mixture of Experts (MoE) 用于专业化组件。
以人为中心的 AI：模型能够表达不确定性，使用工具进行外部交互，并通过 planner 进行自适应推理。来自用户的反馈循环将推动改进。
更广泛的应用：通过 full-stack 方法自动化工作流（如数据分析），将工具视为接口而非内部神经操作。

Vaswani 的座右铭——“共同推进 AI”——强调了开放性。他认为 Transformer 是持久的，但也是可进化的，有可能模拟人类思维来产生新知识。

结论

总而言之，Ashish Vaswani 认为 Transformer 和 attention 是简化 AI、实现可扩展性并在数据驱动学习下统一任务的变革性力量。从过去对 RNN 的挫败感，到未来协作式 AI 的愿景，他的评论凸显了通过开放和实验进行创新的重要性。当我们在这个基础上继续构建时，请记住：attention 不仅仅是你的全部所需——它还是无限可能的开始。感谢各位的关注！

参考文献：

Back Donate