DeepSeek V4 内存需求影响 | AI生成和翻译
问题: DeepSeek V4 显著降低内存需求对存储行业(三星、SK 海力士、美光等)意味着什么?
回答:
这是一个宏观层面的有趣问题——DeepSeek 的软件架构决策会连锁影响到平泽与仁川的晶圆厂投资。以下是全景分析:
首先:理解此前推动内存需求的因素
AI 推理的繁荣催生了前所未有的存储超级周期:
存储公司的毛利率如今已超过台积电——这在两年前难以想象。三星存储部门与 SK 海力士在 2025 年第四季度实现了约 63–67% 的毛利率,而台积电的预期毛利率为 60%。HBM 市场由三家公司掌控:SK 海力士(约 57% 份额)、三星(约 22%)和美光(约 21%)。三家公司到 2026 年的产能均已售罄。
供应短缺导致 DRAM 和 NAND 闪存价格暴涨 200–400%。仅 OpenAI 一家就消耗了全球约 40% 的 DRAM 供应。
瓶颈始终在于 KV 缓存——它随上下文长度线性增长,且驻留在 HBM(最昂贵、带宽最高的内存)中。每个 token 的处理都涉及对 HBM 的读写。这是核心成本驱动因素。
DeepSeek V4 的冲击:仅需 10% 的 KV 缓存 = 每个请求的 HBM 需求减少 90%
直观理解:如果 V4 在 100 万 token 下所需的 KV 缓存仅为 V3.2 的 10%,那么在相同的 GPU 集群上,你可以服务 10 倍多的并发长上下文会话。或者说,要达到相同的吞吐量,你需要的 H100 数量仅为原来的十分之一。
这直接冲击了 HBM 需求——至少在每个有效计算单元层面。
KV 缓存占用空间的激进缩减并非抽象的软件里程碑,它对实际存储供应链具有重大影响。当前行业正陷入由 HBM 需求狂潮驱动的 DRAM 超级周期之中。
但:杰文斯悖论是反作用力
在最初的 DeepSeek 冲击之后,HBM 需求实际上以更陡峭的斜率攀升。这可以用杰文斯悖论解释——当技术效率降低某种资源(此处指推理)的成本时,总消耗量会爆发式增长而非收缩。
AI 领域每次计算效率提升的历史规律:
- 单 token 成本下降 → 更多应用变得经济可行 → 聚合 token 量爆发 → HBM 总需求上升而非下降。
DeepSeek R1(2025 年 1 月)、FlashAttention、量化技术出现后均如此。每次分析师都担忧内存需求崩塌,每次他们都错了。
存储公司实际正在做什么
它们并不恐慌,而是在扩大产能:
三星计划 2026 年将 HBM 产能扩大约 50%,而 SK 海力士已宣布将基础设施投资规模提升至此前公布金额的四倍以上。两家公司均在韩国兴建新晶圆厂——三星位于平泽的 P5 工厂预计 2028 年投产,SK 海力士的 M15X 工厂计划于 2027 年中期投产。
三星存储部门负责人警告称,存储产品”严重短缺”预计至少将持续到 2027 年。随着客户争相锁定未来供应,需求满足率已降至历史低位。
更深层的结构性转变:存储的未来方向
DeepSeek V4 还引入了另一个变数——Engram 架构:
Engram 通过将静态知识卸载到系统 DRAM 中,减少对昂贵 HBM 的依赖,从而降低成本,并使前沿性能能够在更易获得的硬件配置上实现。它将稀疏模型 75–80% 的容量分配给动态推理,20–25% 通过基于确定性哈希的检索用于静态查找,从而将静态知识与动态计算分离。
这在架构上具有重要意义:并非所有内存都平等。HBM 快速且昂贵(用于激活值、KV 缓存、正在计算的权重)。系统 DRAM 较慢且廉价(用于冷权重、静态查找)。如果模型越来越多地将静态知识路由到 DRAM,这将带来需求转变——每块 GPU 所需的 HBM 减少,每个节点所需的系统 DRAM 增加。
行业影响总结
| 维度 | 影响 |
|---|---|
| 每张 GPU 的 HBM 需求 | ↓ 每次推理请求(CSA/HCA 压缩) |
| HBM 总需求 | ↑(杰文斯悖论——更多模型、更多部署) |
| HBM 价格/利润率 | 仍处高位,短缺持续至 2027 年 |
| 系统 DRAM 需求 | ↑ 新增(Engram 式架构向 DRAM 卸载) |
| 每工作负载所需 GPU 数量 | ↓(100 万上下文可适配更少的 H200) |
| 民主化 | ↑ 小型企业现可运行 100 万上下文模型 |
| 三星/海力士股价反应 | 短期恐慌(如 DeepSeek R1 冲击),但基本面依然强劲 |
HBM 市场总规模预计将从 2025 年的 350 亿美元增长至 2028 年的 1000 亿美元——复合年增长率约 40%。HBM4 将于 2026 年进入量产,16 层堆叠目标在 2026 年第四季度推出。
对行业的真正信号
效率提升并不会减少内存需求,而是改变需要何种内存以及在层级结构中的哪个级别。长期趋势很明确:AI 正在消耗堆栈每一层的内存(HBM → LPDDR5 → NAND),而软件效率提升只会加速 AI 向更多产品和用例的渗透,从而扩大所有内存类型的总可寻址市场。
三星、SK 海力士、美光并不担心 DeepSeek V4。它们担心的是晶圆厂建设速度不够快。
参考文献:
- 三星与 SK 海力士警告短缺将持续至 2027 年(Tom’s Hardware)
- 为何 KV 缓存驱动 AI 经济性(Data Gravity)
- AI 存储超级周期(Introl)
- 对内存的饥渴如何扼杀其他科技领域(CipherTalk)
- TurboQuant/DeepSeek 恐惧分析——首尔经济日报