自动驾驶停滞，大语言模型腾飞：为什么

自动驾驶停滞，大语言模型腾飞：为什么 | AI生成和翻译

Home 2026.03

Question: 为什么自动驾驶汽车公司（如 Waymo、Pony.ai）未能实现 2010 年代梦想的突破，而 LLM/NLP 公司（OpenAI、Anthropic、Kimi、Gemini）却成功了——这告诉我们关于保持冷静头脑并观察真相的什么启示？

Answer:

自动驾驶梦想 vs. LLM 现实——认知谦逊的一课

1. 2010 年代自动驾驶热潮的傲慢

大约从 2010–2015 年开始，一波才华横溢的创始人——许多拥有精英学历（Tsinghua、Stanford PhD）——涌入自动驾驶领域。这一愿景真正高尚：减少交通死亡，彻底变革交通。Waymo、Pony.ai、Cruise、Aurora、Mobileye 都吸引了数十亿美元资金以及世界上一些最聪明的人。

雄心是真实的。正直是真实的。才华是真实的。

但雄心和才华并不等同于正确解读现实。

2. 为什么自动驾驶在本质上难以扩展

Wang Yin（王垠，2016）的文章先知般地指出了这一点。核心洞见：

物理世界不宽恕近似。

一个预测下一个词的 neural network 可以错 5% 的时间，文本仍然可读且有用。
一辆误分类湿路面积、水泥路上的行人或碎片的自动驾驶汽车——即使是 0.01% 的时间——也可能杀死某人。

关键扩展障碍：

Problem	Why It Matters
Watery road surfaces, glare, fog	传感器数据变得模糊；物理世界混乱不堪
Long-tail edge cases	世界有无限场景；训练数据永远无法覆盖所有
Real-time 3D perception	计算昂贵、对延迟敏感，必须近乎完美
Legal & liability	一场致命事故 = 巨大的监管挫败
Neural networks are probabilistic	它们输出置信分数，而不是保证——对安全关键系统不可接受

Wang Yin 的观察令人震惊：人类需要大约 1,000 英里的练习才能胜任驾驶。Google 的自动驾驶汽车需要数百万英里的数据，而且仍然每年需要数百次人为干预——在简单小镇（Mountain View）的理想条件下。

这不是更多计算就能轻易弥合的差距。它反映了一个根本差异：人类拥有认知理解；机器拥有统计模式匹配。

3. 为什么 NLP/LLM 扩展如此容易

文本具有使它与现代深度学习完美匹配的特性：

Discrete, structured tokens —— 远比来自 3D 物理世界的连续传感器数据简单的输入空间
Error-tolerant —— 稍微错误的词不会导致任何崩溃
Massive, clean training data —— 整个互联网本质上是一个免费语料库
Feedback loops are cheap —— 可以瞬间测试数百万文本补全；无法安全测试数百万驾驶场景
The Transformer architecture —— 恰好完美契合文本；其 attention 机制自然与语言的序列、上下文结构对齐

关键不对称性：语言是人类抽象，所以人类生成的数据完美捕捉它。物理世界不是人类抽象——它冷漠、连续且混乱。

4. 心理陷阱——聪明人如何被蒙蔽

这是你反思所指的更深层、更普遍的教训。

自动驾驶公司的创始人拥有：

✅ 高 IQ
✅ 技术深度
✅ 真正雄心
✅ 良好意图

但他们也拥有：

❌ 确认偏差 —— 一旦公开承诺，每一个小成功都感觉像是验证
❌ 投资者压力 —— 数十亿美元创造了一个现实扭曲场；没人想说“这可能需要 100 年”
❌ 叙事诱惑 —— “自动驾驶汽车”是一个 绝佳故事；LLM 帮助人们写邮件平凡但实际有效
❌ 误读“scaling”的含义 —— 他们假设更多数据 + 更多计算 = 解决，就像 ImageNet 的改进所暗示的那样

Wang Yin 在 2016 年写道，达到人类水平的自动驾驶可能需要 100–1000 年，或者永远无法完全实现。这在当时是一个极端观点。但 9 年后，Cruise 在致命事故后关闭，Argo AI 被解散，即使是顶尖的 Waymo 也仅在选定的地理围栏城市运营，并有大量支持基础设施。

5. 元教训：冷静观察胜过热情愿景

你这里的直觉在哲学上很重要。它呼应了优秀科学家和投资者所谓的 falsifiability thinking：

“要让这成功，需要什么条件成立？这些条件实际成立吗？”

自动驾驶创始人问：“我们能建这个吗？”
他们本该先问：“当前物理学、传感器和 AI 的状态是否实际允许以可接受成本和安全实现这个？”

LLM 创始人（Altman、Amodei 等）受益——或许部分出于运气——于在 2017–2022 年左右，那个第二个问题的答案悄然变成“是”的领域。

经受真相冷光的原则：

Scalability 是领域特定的 —— 文本中扩展的东西不会自动扩展到物理世界感知
Probabilistic systems + zero-tolerance domains = friction —— 医学、航空、核能和驾驶都惩罚“足够好”
Data availability 极其重要 —— LLM 有互联网；自动驾驶必须昂贵地生成自己的数据
Ego 和资本能维持幻觉十年 —— 但不是永远
冷静、不带激情的分析“什么实际困难”比热情更稀缺也更有价值

6. 这不意味着什么

这不是说自动驾驶 毫无价值 或 永远不可能。Waymo 在其运营区域确实令人印象深刻。Tesla 的 FSD 已有所改善。但 2010 年代的时间表幻想——“2020 年实现完全自主”（Musk，2016）——是披着工程路线图外衣的一厢情愿。

“在控制条件下 99% 时间有效”和“安全到无需监督到处部署”的差距不是 1% 的差距。它可能是工程中最为艰难的 1%。

总结

自动驾驶的故事提醒我们，真相不受雄心、资历或资金左右。湿路面的物理学不在乎你的 PhD 多好。Neural network 仍然是 probabilistic 的。物理世界仍然是连续且混乱的。

保持冷静、平静并诚实地面对 什么实际困难 —— 而非我们希望为真的东西 —— 是最稀缺且最宝贵的认知技能之一。构建 LLM 的人并不一定比自动驾驶创始人有更好的意图。他们只是碰巧在底层真相与其雄心对齐的领域工作。

这种对齐不是你制造的。它是你发现的——如果你足够诚实去看。

References:

王垠：我看自动驾驶技术 — TecHug

Back Donate