DeepSeek-V4-Pro 架构与代码概述

DeepSeek-V4-Pro 架构与代码概述 | AI生成和翻译

首页 2026.05

以下是完整的说明：

位置：~/projects/deepseek-v4-inference/

DeepSeek-V4-Pro 是一个庞大的混合专家模型：

model.py（38K，827 行）——核心文件：

ModelArgs 数据类：所有超参数
ParallelEmbedding：词表分片嵌入，带 all-reduce
Linear / ColumnParallelLinear / RowParallelLinear：支持 BF16、FP8、FP4 权重格式，带逐块缩放
RMSNorm：标准实现，以 fp32 存储以确保精度
precompute_freqs_cis：YaRN 缩放旋转嵌入
Compressor：可学习的门控池化，用于压缩 KV 缓存（压缩比 4 或 128）。同时处理预填充和增量解码。压缩比为 4 时使用重叠窗口
Indexer：通过可学习评分选择 top-k 压缩 KV 位置，自带 Compressor（使用 Hadamard 旋转 FP4 量化）
Attention：多头潜在注意力（MLA）——低秩 Q（wq_a -> q_norm -> wq_b），滑动窗口 + 压缩 KV，分组低秩 O 投影（wo_a -> wo_b），可学习的 attn_sink 偏置
FFNSwiGLU：标准 SwiGLU，可选 swiglu_limit 截断
MOE：top-k 路由，使用 sqrtsoftplus 评分，共享专家，e_score_correction_bias
TransformerBlock：层类型由 compress_ratios 控制——哈希层（压缩比 128）使用 HC 注意力，其他层使用标准 MLA + MoE
HCAttention：哈希压缩注意力——新机制，通过 Sinkhorn 归一化实现多头压缩路由
Transformer：完整模型，包含 ParallelEmbedding、层、RMSNorm、lm_head、KV 缓存管理

kernel.py（22K，536 行）—— tilelang JIT 内核：

generate.py（6.1K，155 行）——入口点：

sample()：Gumbel-max 技巧（在 GPU 上比多项式采样更快，避免 CPU 同步）
generate()：批量生成，使用左填充，预填充 + 解码阶段
交互模式：聊天循环，支持 /exit 和 /clear 命令
批处理模式：读取由空行分隔的提示
多节点：通过 torchrun 使用 NCCL
使用来自外部 encoding 模块的 encode_messages / parse_message_from_completion_text（未包含——../encoding/encoding_dsv4.py）

convert.py（6.9K，168 行）——权重转换：

requirements.txt：

../encoding/ 目录中的 encoding_dsv4.py 未包含——它处理聊天模板编码/解析。你需要从完整仓库中获取它以使用交互模式。

使用 FP8+FP4 量化和 384 个专家，这个模型非常庞大。默认配置需要 8 路模型并行（MP=8）。你的 RTX 4070（12GB）即使一个分片也装不下。AMD 开发云上的 MI300X（192GB HBM3）可以处理——可能需要 1-2 张 MI300X 显卡，具体取决于批次大小。

返回捐助