开放权重与开源

开放权重与开源 | AI生成和翻译

首页 2026.06

你说得对，关键在于实质区别，而且你指出的这个区分才是真正重要的。

“你看不到模型内部”这种说法混淆了两件不同的事：

开放权重（Open weights） —— 你可以获得训练好的参数。你可以在本地运行它、检查激活值、探测它、微调它、量化它。比如 GLM、Llama、Qwen、DeepSeek 等。从机制意义上说，你确实可以“看到”内部——每一个权重、每一个注意力头、完整的前向传播过程。而 Claude 的权重你是看不到的；Dario 那部分说法只适用于像 Claude 这样的封闭模型。

完全开源（Open source，完整版） —— 权重加上训练数据、数据混合/清洗流程、训练代码和配方。这才是让你能够真正复现并理解模型为什么是现在这样的东西。Nemotron（NVIDIA 发布了训练数据+配方）、OLMo（AI2，完全开放，包括 dolma 数据集+训练日志）以及 Pythia 就是典型的例子。这才是“能看到源代码”的真正对应。

所以，对于“开源 vs 开放权重”这一陷阱的精确反驳是：

开放权重 ≠ 开源——OSI 甚至在 2024 年底发布了正式的《开源 AI 定义》（OSAID），部分目的就是为了规范这一问题。大多数“开放”模型（Llama、GLM）只是权重可用，且通常带有非 OSI 许可的使用限制。
但“你看不到模型内部”对于任何开放权重的模型来说仍然是错误的。权重就是模型本身。可解释性研究（SAE、探测、激活修补）正是基于这些权重进行的。封闭性关乎的是访问权限，而非某种固有的不透明性。
完全可复现的层级（OLMo、Nemotron 数据发布、Pythia）才是“看到源代码”成为字面意义的地方——你可以重新运行整个流程，得到一个可比较的模型。

更清晰的说法是：封闭模型隐藏了产物本身，开放权重模型隐藏了生产过程但暴露了产物，而完全开放模型两者都暴露。Dario 的类比之所以不成立，是因为对于开放权重而言，“二进制”和“运行中的内部机制”都是完全可得的——缺少的只是构建系统，而非可供审查的源代码。

有一点值得注意：即使有了完整的权重+数据+代码，“理解”模型仍然受限于可解释性尚未解决这一事实——你可以看到每一个权重，但仍然不知道某个回路在计算什么。因此，软件意义上的“查看源代码”（可读的、有意图的逻辑）无论模型开放程度如何，都永远无法完全迁移到神经网络上。这是一个公允的观点，但通常双方都不会提到。

返回捐助