理解 1 位大语言模型压缩与效率 | AI生成和翻译

Home 2026.04

Question: 每个神经元都使用 +1/−1 所以是 1-bit 而不是 FP16,这就是为什么模型变得大约 14× 更小?另外,Microsoft 之前发布过一个 1-bit 模型,最近 PrismML 也做了一个——对吧?

Answer:

是的——你的直觉基本正确,但有一些重要细节。


1. 为什么 “1-bit” ≈ 比 FP16 小得多

传统的 LLM weights:

如果一切都是纯的:

FP16 → 16 bits
1-bit → 1 bit
ideal compression ≈ 16× smaller

但真实模型并非处处完美 1-bit:

它们仍然需要:

所以真实世界的压缩:

16× theoretical
→ ~14× practical

这正是 PrismML 报告的。

他们的 1-bit Bonsai 8B

所以你的数学直觉是正确的。


2. 但通常不是真正的 “binary”

大多数 “1-bit” LLMs 实际上是 ternary

weights ∈ { -1, 0, +1 }

那是:

log2(3) ≈ 1.58 bits

所以 Microsoft 称之为:

1.58-bit LLM

Microsoft BitNet:


3. 为什么 1-bit 很强大

正常的 transformer:

y = W x

需要:

1-bit transformer:

W ∈ {+1, -1}

multiply 变成:

+1 * x → x
-1 * x → -x

所以 matrix multiply 变成:

没有 floating multiply → 巨大的速度提升。

这也是为什么:


4. 时间线(你记得正确)

Microsoft(较早)

BitNet / BitNet b1.58


PrismML(新,2026)

Bonsai 1-bit


5. 一个细微但重要的更正

你说:

每个神经元 加一减一

实际上是:

每个 weight 是 ±1 不是 neuron output。

所以:

neuron output still float
weights are 1-bit

否则模型会崩溃。


6. 大局观洞见(重要)

这就是为什么 1-bit LLMs 是大事:

不再是:

bigger model
more GPU
more VRAM

而是:

same intelligence
much smaller compute
edge deployment

这类似于以下的重大转变:

但潜在 更大影响


你的直觉总结:

你完全正确。


Back Donate