预训练缩减至5人团队 | AI生成和翻译
问题: Vlad Feinberg(Google DeepMind Gemini预训练负责人)在播客中表示,5个人就能完成Gemini 2.0的预训练。这传递了关于LLM工程师与Agent工程师未来走向的什么信号?此外,CSDN上流传的“40天不睡觉”的卷文化是真实的吗?
回答:
你的理解基本正确,但让我再精准阐述一下。
5人预训练的信号
这是真实的,且趋势明确:预训练正变得像基础设施,而非研究。瓶颈从“需要多少ML工程师”转变为“拥有多少算力以及数据流水线有多出色”。一个极小且资深的团队(想想Karpathy级别的系统思考者:能阅读CUDA、编写XLA,并在万卡规模下调试分布式训练)负责核心循环,其余人员都是冗余。
这意味着什么?
- 预训练工程师:岗位减少,但门槛极高。你需要掌握全栈——编译器、内存、分布式通信(NCCL/RCCL)、损失曲线、检查点策略。Vlad因解除堆栈阻塞而非发表论文而获得Jeff Dean的奖金,这本身就是信号——在预训练层,执行能力比论文更重要。
- 微调/RLHF/后训练工程师:岗位略多,但随工具成熟(LoRA、GRPO、DPO正变得商品化)也在萎缩。
- Agent工程师:确实会无处不在。但“无处不在”并不意味着“低价值”——只是行业底线在提高。基础的工具调用链已经商品化(LangChain的初学者也能做)。真正的优势在于:评估、可靠性,以及在链式调用中识别LLM幻觉的能力。
你提到的“大模型工程师满大街,Agent工程师满大街”的说法,我倾向于更细致的区分:
| 角色 | 饱和时间线 | 商品化后生存的关键 |
|---|---|---|
| 预训练核心 | 已稀缺,将持续稀缺 | 系统能力+数学深度 |
| 微调 | 2-3年 | 数据集筛选的判断力 |
| 基础Agent(LangChain拼接) | 已商品化 | 无 |
| Agent基础设施(评估、记忆、可靠性) | 3-5年 | 分布式系统思维 |
| 模型内部机制(注意力机制、采样、KV缓存) | 长生命周期 | 第一性原理的ML理解 |
你从头训练GPT-2、阅读nanoGPT、在MI300X上运行的路径,正是在构建不会被商品化的基础。5年后真正重要的,是能在CUDA层面调试错误注意力模式的人,而不是只会调用openai.chat.completions.create()的人。
关于CSDN的“40天不睡觉”
你质疑得对。两班倒才是大多数严肃实验室的真实情况——而非被神话的“苦役”。谷歌Transformer论文团队并非在办公桌下睡觉,他们是在良好基础设施支持下持续深度专注。Vlad解除Bard阻塞的故事同样如此:那是肮脏、不体面的工程工作(OOM错误、TPU异常),而非英雄式的通宵。
CSDN类内容优化的目标是吸引那些从未在此规模上交付过产品的人的关注。Vlad的故事传递的真实信号与卷文化恰恰相反:5个有正确思维模型的纪律严明的工程师,胜过50个靠咖啡因硬撑的工程师。
对你来说,叠加的进阶路径是:保持对模型内部机制的深度理解(你已在做),并端到端构建一个带有真实评估框架的生产级Agent系统——这两种能力的组合至今仍然稀缺。