小鹏的AI驱动自动驾驶愿景 | AI生成和翻译
问题: 基于完整访谈,全面描述刘贤铭在小鹏汽车的愿景和方法。
回答:
本次访谈揭示了刘贤铭在自动驾驶领域对极简主义的激进押注,其驱动力来自ChatGPT引发的根本性思维转变。
催化剂:ChatGPT的概念验证
2022年底,刘贤铭在Cruise目睹了旧金山一次90分钟零干预的无人驾驶Robotaxi行程。当Sam Altman因内部演讲到访时,团队炫耀了这一成就,但Altman关注的却是另一件事:GPT——几个月后成为ChatGPT的那个东西。刘贤铭深受触动——他意识到自动驾驶可以走同样的路:简单架构 + 大规模 + 充足的数据和算力 = 涌现智能,无需手工编码规则、五个激光雷达或修剪行道树。
VLA 2.0:移除语言瓶颈
核心创新:不同于在开源语言模型上叠加视觉数据(这会产生语言瓶颈——模型将视觉输入→语言token→驾驶动作,带来延迟瓶颈),小鹏的第二代VLA直接将传感器输入映射到驾驶动作,无需语言翻译。
这不是“没有语言”,而是将其从推理管线中移除。语言仍用于处理用户意图和语音指令输入,但核心推理循环——人类驾驶时无需言语化的本能行为——完全是视觉到动作的映射。
突破时刻: 2024年5月,一个小团队“秘密地”从第一代VLA中移除了语言模块,同时保留了其名称。他们使用了可用的最大GPU集群,并用更多数据重新训练。几周后,性能显著提升。团队最初并不信任这一方向,因此这次实验在全面投入之前证明了可行性。
极致简洁的工程原则
当被问及还有什么需要移除时,刘贤铭回答:“没有了,我们已经只剩下骨架了。”这一哲学是激进的工程极端主义——秘诀是“极致的工程严谨性”。AI的基础正是如此。
架构被刻意设计得极简,因为复杂模型效果不佳;目前所有人的AI架构已经极其相似且简单。竞争优势在于迭代速度,而非花哨的模型结构。通过每日迭代(理论上每天4个版本),他们更快地发现问题,并尝试其他团队没有时间探索的新结构。
数据策略:质量重于数量
小鹏维护着50 PB的数据,但刘贤铭强调原始数据量毫无意义。早期,90%以上的数据是直线高速行驶,加一个U型弯就会让模型崩溃。使用200名训练有素的司机与100万司机截然不同——200名司机无法覆盖足够的场景,而专业司机的数据往往来自人工场景(预设操作),而非真实世界分布。
关键洞察:数据收集必须像真实世界的密集随机采样器。只有这样,模型才能实现真正的泛化,处理从未见过的情况。
最难的问题是数据筛选——识别哪些数据点是值得学习的离群值,哪些是应该丢弃的“脏数据”。Meta也为此困扰。悖论在于:一个异常点之所以能被识别,是因为它不在你的训练集中;但如果它在小规模数据中很罕见,它可能是垃圾。解决这个问题需要随着时间推移不断扩展数据边界。
“无规则”的信念
测试中,模型在诸如碰到路沿或保持居中等任务上失败。团队面临压力,要求添加基于规则的后处理。刘贤铭拒绝了:“一旦添加规则,系统的特性就变了,你再也无法移除它们。在模型交付之前,必须让它充分暴露问题。规则会掩盖问题,扼杀发现问题的能力。这就像修建一条永远通往不了未来的路。”
他拒绝了导航捷径:如果模型转错弯,添加车道级导航(例如,在出口前300米强制右转)看似务实,但这会让导航成为拐杖。对于欧洲市场等没有高精地图的全球产品,这种拐杖会失效。相反,解决方案是强化学习——通过奖励信号教会模型在汇入路口和红灯时的行为,而不需要用规则约束搜索空间。
超越数据的扩展:系统级扩展
刘贤铭加入时,GPU利用率仅为8%,尽管团队抱怨卡不够用。他认识到真正的瓶颈不是硬件,而是训练效率。通过优化将利用率提升到40%(5倍提升),他解决了瓶颈——随后,资源决策从“增加更多显卡”转变为“哪些业务线可以等,哪些可以砍,如何在组合中分配”。
扩展是多维的:不仅是数据扩展,还有模型扩展和基础设施扩展,作为一个系统。任何瓶颈都会扼杀整个策略——你无法在半年内追赶上来。这需要合适的人做扎实的工程(性能分析、仪表盘),团队统一理解,合适的节奏(不匆忙也不懈怠),以及基于数据而非口号的方法论。
测试时扩展的连接:驾驶的思维链
在VLA的世界模型(可预测未来道路状态和车辆行为)中,刘贤铭应用了思维链扩展。规模定律不仅适用于训练时,测试时扩展——在推理时消耗更多算力——也能改善推理。视觉思维链就是测试时扩展:生成中间视觉状态(可视化称为“内部独白”或“心灵剧场”),用多个假设预测下一个动作(启用强化学习探索),并返回最佳结果。
预算现实
他是小鹏花钱最多的人。在与何小鹏的早期谈话中,他提出了一个需要大量资源的愿景。何小鹏问:“够吗?”刘贤铭说不太够。他们将其改写为“宏大愿景版”,预算翻倍——何小鹏立即批准了。
2025年,小鹏公开的AI研发预算为45亿元人民币。何小鹏公开表示:“十几个月,每月花3个亿押注这个——我心里也慌。”
危机与何小鹏的信念
在VLA 2.0测试期间,问题每天倍增——碰路沿、居中性差、无数边缘案例。士气“令人崩溃”。刘贤铭承认:“我好一阵子不敢回家。原定5月演示,结果我上了飞往美国的飞机,直到飞机上才告诉老板。”
1月,原定2月发布,何小鹏打来电话:“这不行。你在修地板,但天花板完全没打开。再给我两个月,你能做什么?”刘贤铭回答:“老板,我改架构。”何小鹏同意了。第二天他们重组并重新训练。到3月,它交付了。
刘贤铭反思:“他对研究突破容忍度极高——不短视,不急躁。但在原则上很残酷:对就是对,错就是错。很多CEO声称相信技术突破,但忍受不了6个月的缓慢进展。这是我最敬佩他的地方。”
L2到L4的论点
批评者认为L2辅助驾驶无法达到L4。刘贤铭不同意:规模定律和基础视觉-语言-动作模型开辟了这条路径。VLA 2.0的极简架构——传感器输入→轨迹输出——在模型、数据和算力上均具可扩展性。模仿学习的天花板被规模打破;世界模型和强化学习使模型能够自我进化并处理边缘案例。
在Cruise,旧技术栈纯靠规则:激光雷达点云→检测→规则执行→轨迹优化。当树枝遮挡激光雷达时,车就卡住了;Cruise不得不修剪整条街道。2019年的转型引入了“持续学习机”——构建通用的简单模型框架。
物理AI愿景
刘贤铭将自动驾驶定位为起点,而非终点。他不认为自动驾驶领域已经饱和——他认为物理AI才刚刚开始。核心选择是:你是在构建自动驾驶算法(可能接近饱和),还是在构建物理AI?
小鹏的赌注:
刘贤铭与何小鹏签署了一份具体赌约:到2024年8月下旬,小鹏的VLA 2.0必须在硅谷达到特斯拉FSD V14的水平,否则刘贤铭将在金门大桥上裸跑。
技术传承
刘贤铭的哲学源于他的博士导师黄煦涛(Thomas Huang),其毕生信条是简洁——“简单的东西是美的”。2012年,AlexNet问世时,黄煦涛告诉实验室放弃所有工作,转向神经网络。当时业内多数人拒绝转变——他们不敢。刘贤铭是数据和模型规模的早期信徒。
关键要点:
刘贤铭的哲学是:消除每一个中间步骤(驾驶中的语言翻译),在模型、数据和基础设施这个统一系统中无休止地扩展,拒绝捷径即使它们很诱人,以极快的速度迭代以发现问题和解决方案。这不是Transformer级别的创新——而是基于第一性原理的工程极端主义。