DeepSeek稀疏注意力机制详解 | AI生成和翻译

Home 2025.04

现在我已经全面了解了 DeepSeek-V3.2-Exp 中的 DeepSeek 稀疏注意力(DSA)。让我提供详细解释。

DeepSeek-V3.2-Exp 中的 DeepSeek 稀疏注意力(DSA)

DeepSeek 稀疏注意力(DSA)是 DeepSeek-V3.2-Exp 模型中引入的一种新颖的细粒度稀疏注意力机制,代表了大语言模型高效长上下文处理的重大进步。DSA 首次实现了细粒度稀疏注意力,在长上下文训练和推理效率方面带来显著提升,同时保持几乎相同的模型输出质量[1]

核心架构:双组件系统

DSA 由两个主要组件组成,共同协作实现高效稀疏注意力:[2]

1. 闪电索引器

闪电索引器是一种快速、轻量级的评分机制,能够快速评估历史令牌对当前查询的重要性。索引器为每个令牌保留一个 128 维的小型键缓存[3](与传统注意力中使用的完整键值缓存相比)。

工作原理:

关键优势: 索引器充当轻量级”预过滤器”,可以快速扫描长上下文,而无需承担完整注意力计算的全部计算负担。

2. 细粒度令牌选择机制

在闪电索引器识别出重要令牌后,细粒度选择机制执行实际的稀疏注意力计算:

数学复杂度降低

传统注意力机制需要计算每个令牌与所有其他令牌之间的关系,导致 O(n²) 的计算复杂度。DeepSeek 稀疏注意力(DSA)将核心注意力复杂度从 O(L²) 降低到 O(Lk),其中 k 是所选令牌的数量(远小于 L)[4]

这代表了注意力计算方式的根本转变:

与多潜在注意力(MLA)的集成

DSA 与 DeepSeek 在 V3 模型中使用的现有多潜在注意力(MLA)架构集成。稀疏注意力机制在 MLA 的压缩键值表示之上运行,创建了两阶段压缩策略:

  1. 第一阶段(MLA): 将键值表示压缩到低维潜在空间
  2. 第二阶段(DSA): 通过仅选择最相关的令牌进行关注来进一步减少计算

这种双重压缩实现了任何单一技术都无法单独实现的效率增益。[3]

性能和效率提升

DSA 在多个维度上带来了显著的效率改进:

速度提升:

内存减少:

成本降低:

效率提升直接转化为显著的成本降低。API 定价降低超过 50%,输入成本低至每百万令牌 0.07 美元(缓存命中)[5]

新 API 定价:

成本降低来自两个因素:

  1. 稀疏注意力机制显著降低计算成本
  2. 引入缓存机制减少冗余计算[5]

性能保持

DSA 的一个关键成就是在实现效率提升的同时保持模型质量。DeepSeek-V3.2-Exp 使用与 V3.1-Terminus 相同的配置进行训练,以严格评估稀疏注意力的影响。

基准测试结果:[1]

基准测试 V3.1-Terminus V3.2-Exp (DSA)
MMLU-Pro 85.0 85.0
GPQA-Diamond 80.7 79.9
LiveCodeBench 74.9 74.1
AIME 2025 88.4 89.3
HMMT 2025 86.1 83.6

结果显示V3.2-Exp 在公共基准测试中表现出与 V3.1-Terminus 相当的性能[1],某些任务甚至显示出改进。稀疏注意力机制经过精心设计,保留了最重要的注意力连接,因此对输出质量的影响很小。

DSA 与其他稀疏注意力方法的区别

细粒度 vs 粗粒度:

大多数先前的稀疏注意力方法使用粗粒度模式(固定模式、局部窗口、跨步注意力)。DSA 通过基于内容相关性动态学习关注哪些特定令牌来实现细粒度稀疏性。

学习选择:

与固定的稀疏模式不同,DSA 通过闪电索引器学习重要性评分,允许响应实际语义关系的自适应注意力模式。

硬件优化:

DSA 从设计之初就针对现代 GPU 硬件进行了优化,不像某些稀疏方法显示出理论增益但实际加速有限。

可训练稀疏性:

稀疏注意力模式在训练期间学习(原生可训练),而不仅仅在推理时应用,允许更好的优化。

技术实现

DSA 实现需要专门的 CUDA 内核以获得最佳性能:

使用场景和优势

DSA 在以下场景中表现尤为出色:

  1. 长上下文处理(64K+ 令牌):文档分析、代码理解、多轮对话
  2. 高吞吐量应用:成本和速度至关重要的场景
  3. 内存受限部署:KV 缓存大小成为瓶颈的场景
  4. 实时应用:推理延迟重要的场景

战略意义

DeepSeek-V3.2-Exp 是通往下一代架构的中间步骤[1],特别是为 DeepSeek-V4 奠定基础。实验性发布允许 DeepSeek:

局限性和考虑因素

虽然 DSA 提供了显著优势,但有一些考虑因素:

  1. 复杂性: 实现比标准注意力更复杂
  2. 短序列开销: 对于非常短的上下文,索引器开销可能不值得
  3. 近似权衡: 虽然质量得以保持,但理论上可能存在一些信息损失
  4. 硬件要求: 需要优化内核以获得最佳性能

未来影响

DSA 代表了 LLM 架构的重要演进方向。通过证明选择性注意力可以在保持质量的同时显著提高效率,它为以下可能性打开了大门:

该技术使 DeepSeek 与其他前沿模型竞争时具有优势,同时显著降低运营成本,可能颠覆 AI API 市场的定价结构。[7]

总之,DeepSeek 稀疏注意力(DSA)是一种复杂的两阶段机制,结合了用于快速令牌重要性评分的轻量级闪电索引器和细粒度选择性注意力计算。它在保持模型质量的同时实现了显著的效率提升(50%+ 成本降低,2-3 倍速度提升),代表了使长上下文 LLM 实用且经济可行的重要进步。

引用: [1] https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp [2] https://medium.com/@Techsankar381/deepseek-halves-ai-tooling-costs-with-breakthrough-sparse-attention-model-3840fb61a4e0 [3] https://x.com/vllm_project/status/1972617272901644345 [4] https://blogs.novita.ai/deepseek-v3-2-exp-on-novita-ai/ [5] https://dev.to/czmilo/deepseek-v32-exp-complete-analysis-2025-ai-model-breakthrough-and-in-depth-analysis-of-sparse-3gcl [6] https://api-docs.deepseek.com/news/news250929 [7] https://www.implicator.ai/deepseek-cuts-inference-costs-by-10x/


Back

anthropic/claude-4.5-sonnet

Donate