AlphaFold 反驳苦涩的教训

AlphaFold 反驳苦涩的教训 | AI生成和翻译

首页 2026.06

问题： 解释这篇关于 John Jumper 回顾 AlphaFold 以及他拒绝“苦涩教训”的文章。

回答：

这是一篇中文科技文章，总结了 Machine Learning Street Talk 访谈中与 John Jumper（AlphaFold 共同创造者，2024 年诺贝尔化学奖得主，现任职于 Anthropic）的对话。核心论点是非主流的：AlphaFold 的成功并非暴力扩展的胜利——它是对苦涩教训的反驳。

AlphaFold 解决的问题

蛋白质是一条由氨基酸（20 个“字母”）组成的一维链，它会自行组装成独特的三维形状，而该形状决定了功能。Jumper 的类比：一个宜家书架，你打开盒子时它就会自行组装。历史上，你需要通过结晶蛋白质并用同步辐射 X 射线轰击来获得结构——每个结构需要数年时间。经过几十年，人类只有约 20 万个结构（AlphaFold 开始时约 14 万个）。

AlphaFold 的三大突破：精度达到约原子半径的误差（媲美实验），速度从一年缩短到 5–10 分钟，以及规模——预测了约 2 亿个结构，覆盖了几乎所有已测序的生物，并免费发布。

Midnolin 示例（结构 ≠ 生物学）

他的观点：拥有结构只是开始。一项关于蛋白质回收的研究发现，发育过程中约数百个基因被关闭，追溯到一种鲜有研究的蛋白质 Midnolin，其机制未知。他们联合运行 AlphaFold 分析 Midnolin 与约 500 个受影响的蛋白质；约 40% 显示出一个独特基序——目标蛋白被夹在 Midnolin 的两个部分之间，像钳子一样。实验室验证：删除预测的结合位点→降解停止。9/10 完美；第 10 个仅部分减弱，于是他们重新检查，发现 AlphaFold 识别出了两个结合位点。同时删除两者→降解完全停止。

他对 AlphaFold 价值的阐述——“一万美元的螺丝”故事：转动正确的螺丝成本 0.50 美元；知道哪颗螺丝 值其余的 9,999.50 美元。AlphaFold 的价值在于其狭隘性——它精确预测“实验会显示什么”，然后将那台机器交给研究人员。它有意不做一个通用的细胞模型。

反苦涩教训的论点（技术核心）

这是与你最相关的部分。Jumper 追溯架构演变：

AlphaFold 1：现成的 CV CNN，外加针对蛋白质的特殊处理作为外部补丁。
AlphaFold 2：从头开始为折叠构建的以科学为先的架构。EvoFormer 主干利用了蛋白质进化缓慢的特点（人类蛋白质与酵母/大肠杆菌的相似），因此你提取数百个进化相关的序列，并桥接“几何推理”和“进化推理”。这个主干占了 >90% 的计算量 AND >90% 的精度。然后是结构模块——“几何引擎”——包含 IPA（不变点注意力） 和决定性的 FAPE（帧对齐点误差） 损失。

人群将 AF2 的胜利归因于 SE(3) 等变性 / 几何深度学习。Jumper 运行消融实验发现：AF2 比 AF1 好约 30 个 GDT 点；去除不变性/等变性仅损失约 2–2.5 个点。 他称自己为“极度冷静的经验主义者”。人们一直崇拜等变性而忽略真正重要的 FAPE。他的观点：全局 SE(3) 对称性是一种弱而混乱的对称性——远不及残基上的置换不变性，并且它不具备物理学中对称性推导定律的力量。

更多消融实验：删除所有卷积层（在配对堆栈中混合轴向注意力和卷积）提高了精度并减少了参数量；将原始 MSA 替换为配对相关性仅损失 1–2 个点。可解释性显示，大部分模型容量用于几何精炼——在最初几层之后，它就是一个“几何引擎”，而非“进化引擎”。这些见解流入 AlphaFold 3，它简化了 EvoFormer 深度，改用更简单的 Pairformer，并且效果更好。

针对苦涩教训的关键论点： AF2 的自定义架构/训练创新带来了约 100 倍的数据效率提升——AlQuraishi 实验室用约 1% 的 PDB（约 1,500 个结构）重新训练 AF2，仍然击败了 AF1。架构研究并未消亡；它是数据的乘数因子。

AlphaFold 3 ≠ “只是一个扩散模型”

Jumper 抵制这个标签，就像他抵制“因为它是 Transformer 所以有效”一样。AF3 的真正飞跃：从单一蛋白质扩展到配体/脂质/药物（小分子，约 20–50 个原子）——回答“这个药物在哪里结合”，这是 AF2 无法做到的。

这里的扩散不同于图像扩散。AF3 有一个巨大的只运行一次的主干（而非扩散），它很可能决定了结构；扩散扮演了旧结构模块的角色——一个几何引擎，接收精确约束并解决微观细节。图像扩散首先生成颜色块，后期才赋予意义（你可以重新运行并重新解释）。蛋白质则相反：大尺度宏观结构是最难的部分。AF2 是凝聚式工作（先处理简单的局部片段，再向上组装）；AF3 的扩散必须首先通过主干 + 第一次前向传播跨越“两个蛋白质如何对接，相对主干位置是什么”这个阈值，然后扩散仅对剩余细节进行采样。因此，尽管技术上是扩散，其逻辑更接近 AF2。

更深层的框架：预测 / 控制 / 理解

人们混淆的三件事：

预测：如果我做 X，我的仪器上会出现什么值。
控制：我希望测量值为 17——我该如何干预。
理解：类似于预测，但有人类参与——你掌握少量事实，能够预测，并且能将其简洁地传递给另一个人。

机器给了我们预测和控制；理解仍然必须由人类推导。 AlphaFold 的魅力：它最终学到的算法是我们能够理解并用几句话表述的——连续的几何精炼。

他的“两种算法”观点（与你的训练工作相关）：有你编写的算法和你最终训练出的算法。机器学习是代码与数据相遇，凝聚成权重——长期的争论是最终技能中有多少来自代码，多少来自权重中的数据。

关于 AGI / 表征

Jumper 的结尾，一如既往地克制：显式指定表征的重要性远低于人们五年前认为的。机器学习长期以来沉迷于手工设计一个单元来命名一个概念并强制解耦中间表征——但许多曾被认为对“智能”至关重要的东西，仅仅通过很好地预测下一个标记就涌现了出来。

他的原话：

它们涌现出来，不是因为你预测下一个标记，而是因为你将下一个标记预测推向极致。

代价是 log-linear 的缩放关系——指数级的计算/数据换来线性能力增益。他的开放问题：我们得到了这些表征，但我们如何更便宜地得到它们？如今我们外部搭建模型（记忆、智能体的目标提醒）；我们尚不知道如何将这些外部“拐杖”提炼回网络中，使其不再需要支撑。

文章结尾的注释：一个刚刚攻克了 50 年难题并为其创造者赢得诺贝尔奖的系统——但这位创造者拒绝将其神化。等变性不是魔法，扩散不是魔法，“理解”本身仍未解决。Jumper 关心的是不引人注目的苦差事，以及从预测→控制→人类构建的理解之间的差距。

参考文献：

Machine Learning Street Talk — John Jumper 访谈

返回捐助