小鹏的AI驱动自动驾驶愿景

小鹏的AI驱动自动驾驶愿景 | AI生成和翻译

首页 2026.06

问题： 基于完整访谈，全面描述刘贤铭在小鹏汽车的愿景和方法。

回答：

本次访谈揭示了刘贤铭在自动驾驶领域对极简主义的激进押注，其驱动力来自ChatGPT引发的根本性思维转变。

催化剂：ChatGPT的概念验证

2022年底，刘贤铭在Cruise目睹了旧金山一次90分钟零干预的无人驾驶Robotaxi行程。当Sam Altman因内部演讲到访时，团队炫耀了这一成就，但Altman关注的却是另一件事：GPT——几个月后成为ChatGPT的那个东西。刘贤铭深受触动——他意识到自动驾驶可以走同样的路：简单架构 + 大规模 + 充足的数据和算力 = 涌现智能，无需手工编码规则、五个激光雷达或修剪行道树。

VLA 2.0：移除语言瓶颈

核心创新：不同于在开源语言模型上叠加视觉数据（这会产生语言瓶颈——模型将视觉输入→语言token→驾驶动作，带来延迟瓶颈），小鹏的第二代VLA直接将传感器输入映射到驾驶动作，无需语言翻译。

这不是“没有语言”，而是将其从推理管线中移除。语言仍用于处理用户意图和语音指令输入，但核心推理循环——人类驾驶时无需言语化的本能行为——完全是视觉到动作的映射。

突破时刻： 2024年5月，一个小团队“秘密地”从第一代VLA中移除了语言模块，同时保留了其名称。他们使用了可用的最大GPU集群，并用更多数据重新训练。几周后，性能显著提升。团队最初并不信任这一方向，因此这次实验在全面投入之前证明了可行性。

极致简洁的工程原则

当被问及还有什么需要移除时，刘贤铭回答：“没有了，我们已经只剩下骨架了。”这一哲学是激进的工程极端主义——秘诀是“极致的工程严谨性”。AI的基础正是如此。

架构被刻意设计得极简，因为复杂模型效果不佳；目前所有人的AI架构已经极其相似且简单。竞争优势在于迭代速度，而非花哨的模型结构。通过每日迭代（理论上每天4个版本），他们更快地发现问题，并尝试其他团队没有时间探索的新结构。

数据策略：质量重于数量

小鹏维护着50 PB的数据，但刘贤铭强调原始数据量毫无意义。早期，90%以上的数据是直线高速行驶，加一个U型弯就会让模型崩溃。使用200名训练有素的司机与100万司机截然不同——200名司机无法覆盖足够的场景，而专业司机的数据往往来自人工场景（预设操作），而非真实世界分布。

关键洞察：数据收集必须像真实世界的密集随机采样器。只有这样，模型才能实现真正的泛化，处理从未见过的情况。

最难的问题是数据筛选——识别哪些数据点是值得学习的离群值，哪些是应该丢弃的“脏数据”。Meta也为此困扰。悖论在于：一个异常点之所以能被识别，是因为它不在你的训练集中；但如果它在小规模数据中很罕见，它可能是垃圾。解决这个问题需要随着时间推移不断扩展数据边界。

“无规则”的信念

测试中，模型在诸如碰到路沿或保持居中等任务上失败。团队面临压力，要求添加基于规则的后处理。刘贤铭拒绝了：“一旦添加规则，系统的特性就变了，你再也无法移除它们。在模型交付之前，必须让它充分暴露问题。规则会掩盖问题，扼杀发现问题的能力。这就像修建一条永远通往不了未来的路。”

他拒绝了导航捷径：如果模型转错弯，添加车道级导航（例如，在出口前300米强制右转）看似务实，但这会让导航成为拐杖。对于欧洲市场等没有高精地图的全球产品，这种拐杖会失效。相反，解决方案是强化学习——通过奖励信号教会模型在汇入路口和红灯时的行为，而不需要用规则约束搜索空间。

超越数据的扩展：系统级扩展

刘贤铭加入时，GPU利用率仅为8%，尽管团队抱怨卡不够用。他认识到真正的瓶颈不是硬件，而是训练效率。通过优化将利用率提升到40%（5倍提升），他解决了瓶颈——随后，资源决策从“增加更多显卡”转变为“哪些业务线可以等，哪些可以砍，如何在组合中分配”。

扩展是多维的：不仅是数据扩展，还有模型扩展和基础设施扩展，作为一个系统。任何瓶颈都会扼杀整个策略——你无法在半年内追赶上来。这需要合适的人做扎实的工程（性能分析、仪表盘），团队统一理解，合适的节奏（不匆忙也不懈怠），以及基于数据而非口号的方法论。

测试时扩展的连接：驾驶的思维链

在VLA的世界模型（可预测未来道路状态和车辆行为）中，刘贤铭应用了思维链扩展。规模定律不仅适用于训练时，测试时扩展——在推理时消耗更多算力——也能改善推理。视觉思维链就是测试时扩展：生成中间视觉状态（可视化称为“内部独白”或“心灵剧场”），用多个假设预测下一个动作（启用强化学习探索），并返回最佳结果。

预算现实

他是小鹏花钱最多的人。在与何小鹏的早期谈话中，他提出了一个需要大量资源的愿景。何小鹏问：“够吗？”刘贤铭说不太够。他们将其改写为“宏大愿景版”，预算翻倍——何小鹏立即批准了。

2025年，小鹏公开的AI研发预算为45亿元人民币。何小鹏公开表示：“十几个月，每月花3个亿押注这个——我心里也慌。”

危机与何小鹏的信念

在VLA 2.0测试期间，问题每天倍增——碰路沿、居中性差、无数边缘案例。士气“令人崩溃”。刘贤铭承认：“我好一阵子不敢回家。原定5月演示，结果我上了飞往美国的飞机，直到飞机上才告诉老板。”

1月，原定2月发布，何小鹏打来电话：“这不行。你在修地板，但天花板完全没打开。再给我两个月，你能做什么？”刘贤铭回答：“老板，我改架构。”何小鹏同意了。第二天他们重组并重新训练。到3月，它交付了。

刘贤铭反思：“他对研究突破容忍度极高——不短视，不急躁。但在原则上很残酷：对就是对，错就是错。很多CEO声称相信技术突破，但忍受不了6个月的缓慢进展。这是我最敬佩他的地方。”

L2到L4的论点

批评者认为L2辅助驾驶无法达到L4。刘贤铭不同意：规模定律和基础视觉-语言-动作模型开辟了这条路径。VLA 2.0的极简架构——传感器输入→轨迹输出——在模型、数据和算力上均具可扩展性。模仿学习的天花板被规模打破；世界模型和强化学习使模型能够自我进化并处理边缘案例。

在Cruise，旧技术栈纯靠规则：激光雷达点云→检测→规则执行→轨迹优化。当树枝遮挡激光雷达时，车就卡住了；Cruise不得不修剪整条街道。2019年的转型引入了“持续学习机”——构建通用的简单模型框架。

物理AI愿景

刘贤铭将自动驾驶定位为起点，而非终点。他不认为自动驾驶领域已经饱和——他认为物理AI才刚刚开始。核心选择是：你是在构建自动驾驶算法（可能接近饱和），还是在构建物理AI？

小鹏的赌注：

刘贤铭与何小鹏签署了一份具体赌约：到2024年8月下旬，小鹏的VLA 2.0必须在硅谷达到特斯拉FSD V14的水平，否则刘贤铭将在金门大桥上裸跑。

技术传承

刘贤铭的哲学源于他的博士导师黄煦涛（Thomas Huang），其毕生信条是简洁——“简单的东西是美的”。2012年，AlexNet问世时，黄煦涛告诉实验室放弃所有工作，转向神经网络。当时业内多数人拒绝转变——他们不敢。刘贤铭是数据和模型规模的早期信徒。

关键要点：

刘贤铭的哲学是：消除每一个中间步骤（驾驶中的语言翻译），在模型、数据和基础设施这个统一系统中无休止地扩展，拒绝捷径即使它们很诱人，以极快的速度迭代以发现问题和解决方案。这不是Transformer级别的创新——而是基于第一性原理的工程极端主义。

返回捐助