DeepSeek-V2-Lite 设置摘要

DeepSeek-V2-Lite 设置摘要 | AI生成和翻译

首页 2026.05

全部完成。以下是摘要：

=== DeepSeek-V2-Lite-Chat 设置完成 ===

模型：DeepSeek-V2-Lite-Chat（160亿参数，通过MoE每个token激活24亿参数）
  - 与V4相同的MLA架构，规模缩小
  - 4位NF4量化，采用双重量化

显存：已使用9.5 GB（可用11.6 GB）——适配您的RTX 4070
模型路径：/mnt/data/models/DeepSeek-V2-Lite-Chat/
脚本：/mnt/data/deepseek-v4-inference/run_lite.py

使用方法：
  python3.11 /mnt/data/deepseek-v4-inference/run_lite.py              # 交互式对话
  python3.11 /mnt/data/deepseek-v4-inference/run_lite.py -p "提示"  # 单次提示
  python3.11 /mnt/data/deepseek-v4-inference/run_lite.py -p "提示" -n 1024  # 更多token

已安装依赖：
  - bitsandbytes 0.49.2
  - accelerate 1.13.0
  - python3.11 头文件从3.12符号链接（用于triton）

模型大小：磁盘约30GB（bf16），显存约9.5GB（4位NF4）

想要尝试交互模式吗？

返回捐助