高效大语言模型的4位量化技术

高效大语言模型的4位量化技术 | AI生成和翻译

Home 2025.11

4位量化是一种通过仅使用4比特存储每个权重（而非通常的16位FP16/BF16或32位FP32精度）来大幅减少大语言模型内存占用的技术。

常规（全精度）模型：

4位量化：

目前常见的两种主流4位量化方法：

方法	全称	主要论文/年份	典型应用场景	核心特性
GPTQ	GPTQ	2023	训练后量化（仅推理）	一次性量化，精度极高，无需重新训练。在训练后将权重舍入至4位。
QLoRA	量化低秩适配	2023年6月	高效微调/指令调优	结合4位存储+LoRA适配器+分页优化器。支持在单张24-48GB GPU上微调650亿+参数模型。

QLoRA同步实现了四项创新：

4位正态浮点（NF4）量化
- 专为服从正态分布的权重优化的特殊4位数据类型（多数LLM权重训练后近似高斯分布）
- 优于普通INT4；对正态分布数据具有理论最优性
双重量化
- 将量化常数（缩放因子）从FP16进一步量化为8位，额外节省数MB内存
分页优化器
- 优化器状态（AdamW动量值）存储于CPU内存，通过NVIDIA统一内存分页传输至GPU，防止训练过程中的内存溢出
LoRA适配器
- 仅训练小型低秩矩阵（秩≤64），基础4位模型保持冻结状态

成果：使用QLoRA可在单张48GB RTX A6000上完整微调650亿参数Llama/Mistral模型，甚至可在单张80GB A100上微调700亿参数模型，而传统全参数微调需要8张以上A100显卡。

一种在训练过程中使用的独立内存优化技术。

工作原理：

典型内存节省：激活内存的50–80%，代价是训练速度降低约20–30%

该技术常与QLoRA或任何大模型微调结合使用，因为即使采用4位权重，激活值仍会耗尽GPU内存。

“4位量化（QLoRA风格或GPTQ）+ 梯度检查点”是现代大模型运行的黄金组合，助力实现：

正是这些技术的结合，使得如今在单张RTX 3090/4090上微调Llama-3-700亿参数模型成为可能。

Back Donate