月之暗面的动态层注意力 | AI生成和翻译

Home 2026.03

问题: Kimi 的 Attention Residual(来自 Moonshot AI)的全面介绍是什么?

答案:

Attention Residuals (AttnRes) 是 Moonshot AI(Kimi 背后的团队)在 2026 年 3 月引入的一种新型架构创新。它用 learned, input-dependent attention mechanism over previous layers 取代了 transformer 模型中传统的固定 residual connections。

这一变化解决了深度网络在深度上聚合信息时的长期局限性。

Traditional Residual Connections – The Baseline

在标准的 transformer(post-LN 或 pre-LN)中,每一层像这样更新隐藏状态:

x_{l} = x_{l-1} + F_l(x_{l-1})

(或在 pre-LN 中:LayerNorm → sub-layer → add)

Core Idea of Attention Residuals

不是盲目添加紧邻的前一层,而是每一层使用 softmax attention 关注 所有(或许多)前一层

简化的数学视图:

设前几层的输出为 {h₁, h₂, …, h_{l-1}}

对于第 l 层:

x_l^{pre} = ∑_{i=1}^{l-1} α_{l,i} ⋅ h_i

关键洞见:深度被类比为序列模型中的 time → 关注深度而不是固定 recurrence。

Main Benefits

Practical Implementation: Block Attention Residuals

对每一前一层进行 full attention 将在深度上呈二次方(在 100+ 层时非常昂贵)。

Moonshot 使用 block-wise 分组:

报告的结果显示:

Integration Example: Kimi Linear

Moonshot 将 Attention Residuals 集成到他们的 Kimi Linear 模型中(hybrid linear-attention + MLA 架构,总 48B / 活跃 3B params,在 1.4T tokens 上训练)。

它有助于缓解 PreNorm 问题,并贡献于强大的 scaling behavior。

Summary – Why It Matters

Attention Residuals 是自原始 “Attention is All You Need” 论文(2017)以来对 core transformer block 最干净、最优雅的更新之一。

它完成了 “attention-ification” 转型:

许多研究者视其为一种自然演进,却令人惊讶地被忽略了近十年。

有关完整技术细节,请参阅 Moonshot AI 发布的官方论文。

参考文献:


Back Donate