DeepSeek V4 内存需求影响

DeepSeek V4 内存需求影响 | AI生成和翻译

首页 2026.05

问题： DeepSeek V4 显著降低内存需求对存储行业（三星、SK 海力士、美光等）意味着什么？

回答：

这是一个宏观层面的有趣问题——DeepSeek 的软件架构决策会连锁影响到平泽与仁川的晶圆厂投资。以下是全景分析：

首先：理解此前推动内存需求的因素

AI 推理的繁荣催生了前所未有的存储超级周期：

存储公司的毛利率如今已超过台积电——这在两年前难以想象。三星存储部门与 SK 海力士在 2025 年第四季度实现了约 63–67% 的毛利率，而台积电的预期毛利率为 60%。HBM 市场由三家公司掌控：SK 海力士（约 57% 份额）、三星（约 22%）和美光（约 21%）。三家公司到 2026 年的产能均已售罄。

供应短缺导致 DRAM 和 NAND 闪存价格暴涨 200–400%。仅 OpenAI 一家就消耗了全球约 40% 的 DRAM 供应。

瓶颈始终在于 KV 缓存——它随上下文长度线性增长，且驻留在 HBM（最昂贵、带宽最高的内存）中。每个 token 的处理都涉及对 HBM 的读写。这是核心成本驱动因素。

DeepSeek V4 的冲击：仅需 10% 的 KV 缓存 = 每个请求的 HBM 需求减少 90%

直观理解：如果 V4 在 100 万 token 下所需的 KV 缓存仅为 V3.2 的 10%，那么在相同的 GPU 集群上，你可以服务 10 倍多的并发长上下文会话。或者说，要达到相同的吞吐量，你需要的 H100 数量仅为原来的十分之一。

这直接冲击了 HBM 需求——至少在每个有效计算单元层面。

KV 缓存占用空间的激进缩减并非抽象的软件里程碑，它对实际存储供应链具有重大影响。当前行业正陷入由 HBM 需求狂潮驱动的 DRAM 超级周期之中。

但：杰文斯悖论是反作用力

在最初的 DeepSeek 冲击之后，HBM 需求实际上以更陡峭的斜率攀升。这可以用杰文斯悖论解释——当技术效率降低某种资源（此处指推理）的成本时，总消耗量会爆发式增长而非收缩。

AI 领域每次计算效率提升的历史规律：

单 token 成本下降 → 更多应用变得经济可行 → 聚合 token 量爆发 → HBM 总需求上升而非下降。

DeepSeek R1（2025 年 1 月）、FlashAttention、量化技术出现后均如此。每次分析师都担忧内存需求崩塌，每次他们都错了。

存储公司实际正在做什么

它们并不恐慌，而是在扩大产能：

三星计划 2026 年将 HBM 产能扩大约 50%，而 SK 海力士已宣布将基础设施投资规模提升至此前公布金额的四倍以上。两家公司均在韩国兴建新晶圆厂——三星位于平泽的 P5 工厂预计 2028 年投产，SK 海力士的 M15X 工厂计划于 2027 年中期投产。

三星存储部门负责人警告称，存储产品”严重短缺”预计至少将持续到 2027 年。随着客户争相锁定未来供应，需求满足率已降至历史低位。

更深层的结构性转变：存储的未来方向

DeepSeek V4 还引入了另一个变数——Engram 架构：

Engram 通过将静态知识卸载到系统 DRAM 中，减少对昂贵 HBM 的依赖，从而降低成本，并使前沿性能能够在更易获得的硬件配置上实现。它将稀疏模型 75–80% 的容量分配给动态推理，20–25% 通过基于确定性哈希的检索用于静态查找，从而将静态知识与动态计算分离。

这在架构上具有重要意义：并非所有内存都平等。HBM 快速且昂贵（用于激活值、KV 缓存、正在计算的权重）。系统 DRAM 较慢且廉价（用于冷权重、静态查找）。如果模型越来越多地将静态知识路由到 DRAM，这将带来需求转变——每块 GPU 所需的 HBM 减少，每个节点所需的系统 DRAM 增加。

行业影响总结

维度	影响
每张 GPU 的 HBM 需求	↓ 每次推理请求（CSA/HCA 压缩）
HBM 总需求	↑（杰文斯悖论——更多模型、更多部署）
HBM 价格/利润率	仍处高位，短缺持续至 2027 年
系统 DRAM 需求	↑ 新增（Engram 式架构向 DRAM 卸载）
每工作负载所需 GPU 数量	↓（100 万上下文可适配更少的 H200）
民主化	↑ 小型企业现可运行 100 万上下文模型
三星/海力士股价反应	短期恐慌（如 DeepSeek R1 冲击），但基本面依然强劲

HBM 市场总规模预计将从 2025 年的 350 亿美元增长至 2028 年的 1000 亿美元——复合年增长率约 40%。HBM4 将于 2026 年进入量产，16 层堆叠目标在 2026 年第四季度推出。

对行业的真正信号

效率提升并不会减少内存需求，而是改变需要何种内存以及在层级结构中的哪个级别。长期趋势很明确：AI 正在消耗堆栈每一层的内存（HBM → LPDDR5 → NAND），而软件效率提升只会加速 AI 向更多产品和用例的渗透，从而扩大所有内存类型的总可寻址市场。

三星、SK 海力士、美光并不担心 DeepSeek V4。它们担心的是晶圆厂建设速度不够快。

参考文献：

返回捐助