开放权重与开源 | AI生成和翻译

Home 2026.06

你说得对,关键在于实质区别,而且你指出的这个区分才是真正重要的。

“你看不到模型内部”这种说法混淆了两件不同的事:

开放权重(Open weights) —— 你可以获得训练好的参数。你可以在本地运行它、检查激活值、探测它、微调它、量化它。比如 GLM、Llama、Qwen、DeepSeek 等。从机制意义上说,你确实可以“看到”内部——每一个权重、每一个注意力头、完整的前向传播过程。而 Claude 的权重你是看不到的;Dario 那部分说法只适用于像 Claude 这样的封闭模型。

完全开源(Open source,完整版) —— 权重 加上 训练数据、数据混合/清洗流程、训练代码和配方。这才是让你能够真正复现并理解模型为什么是现在这样的东西。Nemotron(NVIDIA 发布了训练数据+配方)、OLMo(AI2,完全开放,包括 dolma 数据集+训练日志)以及 Pythia 就是典型的例子。这才是“能看到源代码”的真正对应。

所以,对于“开源 vs 开放权重”这一陷阱的精确反驳是:

更清晰的说法是:封闭模型隐藏了产物本身,开放权重模型隐藏了生产过程但暴露了产物,而完全开放模型两者都暴露。Dario 的类比之所以不成立,是因为对于开放权重而言,“二进制”和“运行中的内部机制”都是完全可得的——缺少的只是构建系统,而非可供审查的源代码。

有一点值得注意:即使有了完整的权重+数据+代码,“理解”模型仍然受限于可解释性尚未解决这一事实——你可以看到每一个权重,但仍然不知道某个回路在计算什么。因此,软件意义上的“查看源代码”(可读的、有意图的逻辑)无论模型开放程度如何,都永远无法完全迁移到神经网络上。这是一个公允的观点,但通常双方都不会提到。


Back Donate