多头潜在注意力效率原理解析 | AI生成和翻译
多头潜在注意力(MLA)
多头潜在注意力(MLA)是由深度求索(DeepSeek AI)开发的一种高效注意力机制,首次在其 DeepSeek-V2 模型中引入,并在 DeepSeek-V3 中进行了改进。它旨在通过将键值(KV)缓存压缩为低维“潜在”向量,减少大型语言模型中传统多头注意力的计算开销,特别是在推理过程中(例如生成响应时)。
工作原理(简化版)
- 在标准注意力中,查询、键和值是高维张量,其大小随序列长度增长,导致高昂的内存和计算成本。
- MLA 将来自多个注意力头的 KV 对压缩到一个共享的低秩潜在空间中(例如,维度 \(d_c \ll d_{\text{模型}}\))。
- 在前向传播过程中:
- 使用线性层将查询和 KV 输入投影到潜在空间。
- 直接在这些压缩后的潜在向量上计算注意力分数。
- 仅将输出解压缩回完整维度。
- 这避免了存储或处理完整的 KV 缓存,从而在不牺牲太多性能的情况下实现更快的推理和更长的上下文处理能力。
主要优势
- 高效性:与分组查询注意力(GQA)相比,推理速度提升高达 2-3 倍,并减少内存使用。
- 可扩展性:支持大规模模型(例如 DeepSeek-V3 的 4050 亿参数),并与混合专家(MoE)集成以实现稀疏激活。
- 权衡:在某些任务中准确率略有下降,但通过训练压缩表示来缓解。
MLA 基于低秩自适应(LoRA)等思想,但将其动态应用于注意力机制。该机制已开源,并可集成到 vLLM 或 Hugging Face 等框架中。