长短期记忆网络实为旋转残差网络

长短期记忆网络实为旋转残差网络 | AI生成和翻译

Home 2025.10

在获得NeurIPS 2024时间检验奖的演讲中，Ilya Sutskever回顾了2014年《使用神经网络进行序列到序列学习》论文中的关键见解与失误。他在“我们当初错在哪里”部分指出，LSTM（长短期记忆网络）的过度复杂化及其最终局限性是重要问题——正是LSTM推动了早期序列建模的突破，如机器翻译。

关于LSTM的核心误解

我们曾将LSTM视为专门为序列数据定制的全新复杂架构，认为这种“特殊”结构需要深度学习研究者精心设计以处理时间依赖、梯度消失和递归问题。但Sutskever解释道，LSTM的实际本质远比这简单：它们本质上就是旋转了90度的ResNet（残差网络）。

ResNet（2015年提出）通过添加跨层直连的跳跃连接（残差），使信息能直接流动，从而在不引发训练不稳定的情况下实现更深的网络，彻底改变了图像处理领域
LSTM（1997年提出）在时间维度上实现了类似功能：其门控机制和细胞状态就像残差连接，允许梯度和信息在长序列中传播而不会衰减。这与ResNet原理相同——只是从空间堆叠（如图像像素）“旋转”到了时间堆叠（如句子中的单词）

Sutskever打趣道：“对不熟悉的人来说，LSTM是Transformer出现前可怜深度学习研究者们的无奈之举。它本质上就是个旋转了90度的ResNet…而且出现得更早，就像个稍复杂的、带有积分器和乘法运算的ResNet。”这个类比强调LSTM并非革命性创新，而是残差思想在循环网络中的早期优雅实践。

此事为何重要（以及问题出在哪里）

辉煌成就：LSTM在当时展现出惊人的扩展能力，使seq2seq模型在翻译任务上击败传统统计方法。其残差设计使深度循环网络可训练，正如后来对前馈网络的改变
认知误区（及LSTM的衰落）：我们低估了LSTM顺序处理特性对扩展性的制约。与可并行化的ResNet或Transformer不同，LSTM需逐步处理数据，导致其难以应对海量数据集或长上下文场景。其冗余复杂度（如多重门控机制）也被Transformer中的注意力机制简化。到2017年，Transformer的出现暴露了这些局限，推动领域转向具有更好并行性和长程依赖能力的自注意力机制

回望过去，错误不在于发明LSTM——它们曾是里程碑式的过渡方案——而在于我们将其视为序列建模的终极方案，未能及时认识到残差连接是通用工具，也未更快转向并行架构。

这一视角将LSTM重新定义为理解跳跃连接如何解锁多维度深度网络的关键基石，而非过时技术。

序列到序列学习十年回顾：演讲实录与视频
 Ilya Sutskever NeurIPS 2024完整演讲
 从Ilya的NeurIPS 2024演讲获得的启示

Back Donate