自动驾驶停滞,大语言模型腾飞:为什么 | AI生成和翻译
Question: 为什么自动驾驶汽车公司(如 Waymo、Pony.ai)未能实现 2010 年代梦想的突破,而 LLM/NLP 公司(OpenAI、Anthropic、Kimi、Gemini)却成功了——这告诉我们关于保持冷静头脑并观察真相的什么启示?
Answer:
自动驾驶梦想 vs. LLM 现实——认知谦逊的一课
1. 2010 年代自动驾驶热潮的傲慢
大约从 2010–2015 年开始,一波才华横溢的创始人——许多拥有精英学历(Tsinghua、Stanford PhD)——涌入自动驾驶领域。这一愿景真正高尚:减少交通死亡,彻底变革交通。Waymo、Pony.ai、Cruise、Aurora、Mobileye 都吸引了数十亿美元资金以及世界上一些最聪明的人。
雄心是真实的。正直是真实的。才华是真实的。
但雄心和才华并不等同于正确解读现实。
2. 为什么自动驾驶在本质上难以扩展
Wang Yin(王垠,2016)的文章先知般地指出了这一点。核心洞见:
物理世界不宽恕近似。
- 一个预测下一个词的 neural network 可以错 5% 的时间,文本仍然可读且有用。
- 一辆误分类湿路面积、水泥路上的行人或碎片的自动驾驶汽车——即使是 0.01% 的时间——也可能杀死某人。
关键扩展障碍:
| Problem | Why It Matters |
|---|---|
| Watery road surfaces, glare, fog | 传感器数据变得模糊;物理世界混乱不堪 |
| Long-tail edge cases | 世界有无限场景;训练数据永远无法覆盖所有 |
| Real-time 3D perception | 计算昂贵、对延迟敏感,必须近乎完美 |
| Legal & liability | 一场致命事故 = 巨大的监管挫败 |
| Neural networks are probabilistic | 它们输出置信分数,而不是保证——对安全关键系统不可接受 |
Wang Yin 的观察令人震惊:人类需要大约 1,000 英里的练习才能胜任驾驶。Google 的自动驾驶汽车需要数百万英里的数据,而且 仍然 每年需要数百次人为干预——在简单小镇(Mountain View)的理想条件下。
这不是更多计算就能轻易弥合的差距。它反映了一个根本差异:人类拥有认知理解;机器拥有统计模式匹配。
3. 为什么 NLP/LLM 扩展如此容易
文本具有使它与现代深度学习完美匹配的特性:
- Discrete, structured tokens —— 远比来自 3D 物理世界的连续传感器数据简单的输入空间
- Error-tolerant —— 稍微错误的词不会导致任何崩溃
- Massive, clean training data —— 整个互联网本质上是一个免费语料库
- Feedback loops are cheap —— 可以瞬间测试数百万文本补全;无法安全测试数百万驾驶场景
- The Transformer architecture —— 恰好完美契合文本;其 attention 机制自然与语言的序列、上下文结构对齐
关键不对称性:语言是人类抽象,所以人类生成的数据完美捕捉它。物理世界不是人类抽象——它冷漠、连续且混乱。
4. 心理陷阱——聪明人如何被蒙蔽
这是你反思所指的更深层、更普遍的教训。
自动驾驶公司的创始人拥有:
- ✅ 高 IQ
- ✅ 技术深度
- ✅ 真正雄心
- ✅ 良好意图
但他们也拥有:
- ❌ 确认偏差 —— 一旦公开承诺,每一个小成功都感觉像是验证
- ❌ 投资者压力 —— 数十亿美元创造了一个现实扭曲场;没人想说“这可能需要 100 年”
- ❌ 叙事诱惑 —— “自动驾驶汽车”是一个 绝佳故事;LLM 帮助人们写邮件平凡但实际有效
- ❌ 误读“scaling”的含义 —— 他们假设更多数据 + 更多计算 = 解决,就像 ImageNet 的改进所暗示的那样
Wang Yin 在 2016 年写道,达到人类水平的自动驾驶可能需要 100–1000 年,或者永远无法完全实现。这在当时是一个极端观点。但 9 年后,Cruise 在致命事故后关闭,Argo AI 被解散,即使是顶尖的 Waymo 也仅在选定的地理围栏城市运营,并有大量支持基础设施。
5. 元教训:冷静观察胜过热情愿景
你这里的直觉在哲学上很重要。它呼应了优秀科学家和投资者所谓的 falsifiability thinking:
“要让这成功,需要什么条件成立?这些条件实际成立吗?”
自动驾驶创始人问:“我们能建这个吗?”
他们本该先问:“当前物理学、传感器和 AI 的状态是否实际允许以可接受成本和安全实现这个?”
LLM 创始人(Altman、Amodei 等)受益——或许部分出于运气——于在 2017–2022 年左右,那个第二个问题的答案悄然变成“是”的领域。
经受真相冷光的原则:
- Scalability 是领域特定的 —— 文本中扩展的东西不会自动扩展到物理世界感知
- Probabilistic systems + zero-tolerance domains = friction —— 医学、航空、核能和驾驶都惩罚“足够好”
- Data availability 极其重要 —— LLM 有互联网;自动驾驶必须昂贵地生成自己的数据
- Ego 和资本能维持幻觉十年 —— 但不是永远
- 冷静、不带激情的分析“什么实际困难”比热情更稀缺也更有价值
6. 这不意味着什么
这不是说自动驾驶 毫无价值 或 永远不可能。Waymo 在其运营区域确实令人印象深刻。Tesla 的 FSD 已有所改善。但 2010 年代的时间表幻想——“2020 年实现完全自主”(Musk,2016)——是披着工程路线图外衣的一厢情愿。
“在控制条件下 99% 时间有效”和“安全到无需监督到处部署”的差距不是 1% 的差距。它可能是工程中最为艰难的 1%。
总结
自动驾驶的故事提醒我们,真相不受雄心、资历或资金左右。湿路面的物理学不在乎你的 PhD 多好。Neural network 仍然是 probabilistic 的。物理世界仍然是连续且混乱的。
保持冷静、平静并诚实地面对 什么实际困难 —— 而非我们希望为真的东西 —— 是最稀缺且最宝贵的认知技能之一。构建 LLM 的人并不一定比自动驾驶创始人有更好的意图。他们只是碰巧在底层真相与其雄心对齐的领域工作。
这种对齐不是你制造的。它是你 发现 的——如果你足够诚实去看。
References: