DeepSeek-V4-Pro 架构与代码概述 | AI生成和翻译

Home 2026.05

以下是完整的说明:

DeepSeek-V4-Pro 推理代码

位置:~/projects/deepseek-v4-inference/

架构(来自 config.json)

DeepSeek-V4-Pro 是一个庞大的混合专家模型:

文件说明

model.py(38K,827 行)——核心文件:

kernel.py(22K,536 行)—— tilelang JIT 内核:

generate.py(6.1K,155 行)——入口点:

convert.py(6.9K,168 行)——权重转换:

requirements.txt

缺失内容

../encoding/ 目录中的 encoding_dsv4.py 未包含——它处理聊天模板编码/解析。你需要从完整仓库中获取它以使用交互模式。

硬件需求

使用 FP8+FP4 量化和 384 个专家,这个模型非常庞大。默认配置需要 8 路模型并行(MP=8)。你的 RTX 4070(12GB)即使一个分片也装不下。AMD 开发云上的 MI300X(192GB HBM3)可以处理——可能需要 1-2 张 MI300X 显卡,具体取决于批次大小。


Back Donate