阿希什·瓦斯瓦尼谈 Transformer 和注意力机制 | AI生成和翻译
问题:根据 Ashish Vaswani 的 YouTube 视频和论文,他对 Transformer 和 attention 机制有哪些评论?请提供一份全面的讲座稿。
回答:
全面讲座:Ashish Vaswani 关于 Transformer 和 Attention 机制的见解
引言
各位好。今天,我们将通过 Ashish Vaswani 的视角深入探讨 Transformer 和 attention 机制的世界。他是 2017 年开创性论文《Attention Is All You Need》的第一作者。作为 Transformer 架构的共同发明人,Vaswani 在学术论文、讲座和采访中广泛分享了他的见解。本讲座综合了他来自关键来源的评论,包括他的开创性论文、Stanford CS25 和 CS224N 讲座、在 Essential AI 上的讨论,以及在更广泛的 AI 对话中的反思。我们将涵盖历史背景、技术基础、开发历程、影响以及未来方向。Vaswani 的观点强调了 Transformer 在简化 AI 架构、实现 parallelism(并行性)和促进研究开放性方面的作用,同时也承认了效率和泛化等持续存在的挑战。
历史背景与动机
Vaswani 经常将 Transformer 的起源追溯到 AI 的广阔历史,从 1956 年的 Dartmouth Conference 开始。他将这次活动——由 John McCarthy、Marvin Minsky 和 Claude Shannon 等先驱参加——描述为一次雄心勃勃的尝试,旨在通过基于规则的系统在机器中模拟人类智能。然而,这些早期努力低估了智能的复杂性和计算能力的局限性,导致了由于方法细碎化而产生的 AI 寒冬。
到 2010 年代初,natural language processing (NLP) 仍依赖于复杂的 pipeline 来处理机器翻译等任务,涉及词对齐(word alignments)、短语提取(phrase extractions)和使用神经网络语言模型进行重评分。Vaswani 强调了对 recurrent neural networks (RNNs) 和 long short-term memory (LSTM) 模型的失望,因为它们是顺序处理且缓慢的,难以处理语言中的长程依赖(long-range dependencies)和层次结构。例如,RNN 将信息压缩到固定大小的向量中,使得共指消解(co-reference resolution)等任务变得困难。
Transformer 的动力源于对 parallelism 和效率的追求。Vaswani 指出,卷积模型改善了局部依赖处理,但需要深层堆叠才能实现全局交互。Attention 机制最初用于机器翻译的 encoder-decoder 结构(灵感来自 computer vision 中的 non-local means),它允许选择性地关注输入序列的相关部分。这演变成了 self-attention,使 token 能够直接交互,绕过了循环结构。
在他的反思中,Vaswani 回忆起 2017 年 Google Brain 那种“充满电性”的研究环境,当时诸如用于语言的 diffusion models 等想法激发了 Transformer 的产生。其核心见解是将 attention 重新用于 representation learning(表示学习),使模型能够更有效地处理变长数据。
Attention 机制:核心构建模块
Attention 是 Vaswani 贡献的核心。在 2017 年的论文中,他和合著者将其定义为一个基于内容的存储检索系统(content-based memory retrieval system)。对于序列中的每个位置,通过线性变换生成一个 query,通过点积将其与 key(来自所有位置)进行比较,并除以维度平方根以防止不稳定性,最后经过 softmax 产生权重。这些权重随后对各位置的 value 进行加权平均,创建上下文感知(context-aware)的表示。
Vaswani 强调了 attention 的 parallelism:与处理过程是顺序的 RNN 不同,attention 允许所有 token 通过矩阵运算同时交互,这使得它对 GPU 非常友好。它是排列不变的(permutation-invariant),因此需要添加 positional encodings(如正弦波或可学习的编码)来保持顺序。他批评 single-head attention 会平均 embedding,从而稀释信息(例如在“the cat licked the owner’s hand”这种歧义句子中)。Multi-head attention 通过投影到多个子空间解决了这个问题,允许不同的视角——有些 head 关注局部模式(模拟卷积),有些关注长距离关系。
在文本之外的扩展中,Vaswani 讨论了 attention 建模自相似性(self-similarity)的能力。对于图像,它将 patch 视为 token,从而实现超分辨率等任务。在音乐中,relative attention 引入了距离感知项,通过在没有绝对位置的情况下捕捉重复基元,提高了长序列的连贯性。这使得 attention 具有平移等变性(translationally equivariant),对图(graphs)和机器人技术非常有用。
Vaswani 认为 attention 提供了与数据对称性一致的 inductive biases(归纳偏置),例如自然数据中的自相似性。然而,他也指出了长上下文下二次方复杂度(quadratic complexity)的挑战,并提出了 sparse attention、滑动窗口或检索增强记忆(retrieval-augmented memory)等解决方案。
Transformer 架构:设计与创新
正如论文中所介绍的,Transformer 是一种完全基于 attention 的 encoder-decoder 模型,摒弃了循环和卷积。Encoder 使用 self-attention 和带有 residual(残差)的 feed-forward 层;decoder 则增加了 causal self-attention(掩码未来位置)和 encoder-decoder attention。Residual connections 保留了位置信息,而 layer normalization(为了稳定性采用 pre-layer norm)有助于训练。
Vaswani 强调了该架构的简洁与高效:它实现了依赖关系的恒定路径长度、随数据规模无限增长的记忆能力以及完全的 parallelism。从经验上看,它在 WMT 2014 翻译任务上设定了新基准(例如,在 8 个 GPU 上训练 3.5 天后,英法翻译达到 41.8 BLEU),以更少的 FLOPs 超越了集成模型。他将成功归功于优化友好的设计(如显式的成对连接),而非相对于 LSTM 的卓越表达能力。
创新之处包括用于多变子空间的 multi-head attention 和 positional encodings。后来的演变,如相对位置嵌入(如 rotary embeddings),允许外推到更长的序列。Vaswani 还探索了 non-autoregressive generation(非自回归生成)以克服顺序瓶颈,尽管排序挑战依然存在——模型在没有 oracle 的情况下难以处理条件独立性。
在应用方面,Transformer 将 NLP pipeline 整合为同质神经网络,实现了大规模的自我监督学习(如 GPT, BERT)。Vaswani 将其扩展到多模态任务:通过自回归 patch 建模生成图像,以及通过符号 MIDI 序列生成音乐,实现了更好的 perplexity(困惑度)和类人输出。
对 AI 和 NLP 的影响
Vaswani 将 Transformer 描述为 NLP 的一次“整合”,用数据驱动的神经网络取代了专门的 pipeline。它们彻底改变了机器翻译(如 Google’s Neural Machine Translation),实现了 state-of-the-art 的结果并促成了大规模部署。除文本外,其影响还包括:
- 图像与视觉:建模自相似性用于去噪和生成,表现优于 PixelSNAIL 等模型。
- 音乐与音频:捕捉长程重复,改善作曲中的延续性。
- 机器人与规划:使用大模型作为 planner(规划器),利用文本中的世界知识。
- 泛化性:融合海量训练数据进行创意任务,尽管分布外(out-of-distribution)的表现仍然有限。
2017 年论文的公开发布引发了飞速进步,到 2025 年引用量已超过 17.3 万次。Vaswani 将进步归功于协作和开放,并警告说,在 AI 前沿减少分享可能会阻碍突破。在他创立的 startup Essential AI 中,Transformer 为用于软件工程和探索的开源模型提供支持,并引入了 Muon optimizer 和 AMD MI300X 扩展等创新。
可解释性是一个加分项:attention heads 揭示了模式,有些像卷积一样是局部的,有些是全局的。大模型中的涌现行为(emergent behaviors)令 Vaswani 感到惊讶,这表明人机协作中仍有未开发的潜力。
挑战与未来方向
尽管持乐观态度,Vaswani 也承认局限性。长上下文处理受困于二次方成本;解决方案包括 sparse/content-based attention、为了内存效率的 multi-query attention,以及用于 GPU 优化的 Flash Attention。由于学习排序的问题,Non-autoregressive decoding 仍难以实现。
展望未来,Vaswani 愿景如下:
- 效率提升:更好的数据清洗(2 倍潜力)、具有卓越扩展性的替代架构、低精度训练(如 FP8)以及 speculative decoding(投机采样)。
- 开放生态系统:在 3-5 年内,开源模型将通过湿实验室(wet-lab)互惠,辅助定理证明、哲学研究和药物研发。
- 模块化:Mixture of Experts (MoE) 用于专业化组件。
- 以人为中心的 AI:模型能够表达不确定性,使用工具进行外部交互,并通过 planner 进行自适应推理。来自用户的反馈循环将推动改进。
- 更广泛的应用:通过 full-stack 方法自动化工作流(如数据分析),将工具视为接口而非内部神经操作。
Vaswani 的座右铭——“共同推进 AI”——强调了开放性。他认为 Transformer 是持久的,但也是可进化的,有可能模拟人类思维来产生新知识。
结论
总而言之,Ashish Vaswani 认为 Transformer 和 attention 是简化 AI、实现可扩展性并在数据驱动学习下统一任务的变革性力量。从过去对 RNN 的挫败感,到未来协作式 AI 的愿景,他的评论凸显了通过开放和实验进行创新的重要性。当我们在这个基础上继续构建时,请记住:attention 不仅仅是你的全部所需——它还是无限可能的开始。感谢各位的关注!
参考文献:
- https://arxiv.org/abs/1706.03762
- https://www.youtube.com/watch?v=1GbDTTK3aR4
- https://www.youtube.com/watch?v=5vcj8kSwBCY
- https://www.youtube.com/watch?v=_sbFi5gGdRA
- https://blogs.nvidia.com/blog/gtc-2024-transformer-ai-research-panel-jensen/