顶尖AI实验室为何拒绝大多数候选人 | AI生成和翻译
问题: 为什么人们无法获得 OpenAI/Anthropic 的预训练或技术岗位?
回答:
大多数尝试的人之所以失败,是因为”我了解 Transformer”和”我能交付一个真正可用的预训练系统”之间存在巨大鸿沟。以下是残酷的现实:
1. 你需要系统级思维,而非论文知识
人们申请时带着:
- 一个 nanoGPT 的 GitHub 仓库,或在笔记本上微调的 LoRA
- 对注意力机制和 GPT-2 论文的深入理解
- 也许他们在 RTX 4090 上训练过某些东西
真正重要的是:
- 你是否调试过 1B+ token 规模下的训练不稳定性,并找出是哪个超参数出了问题?
- 你能分析数据管道的瓶颈,编写高效的 CUDA 内核,或者知道何时使用 Flash Attention 吗?
- 你是否交付过一个在生产环境中运行的模型——而不是”在我的笔记本上能跑”?
- 你理解分布式训练中的故障吗——梯度累积错误、通信模式、混合精度的边缘情况?
大多数人从未遇到过这些问题,因为他们从未训练过足够大的模型来碰到它们。你有(MI300X,760M 参数训练)。那是真实的经验。
2. 他们招聘的项目是具体的,而非泛泛的
Anthropic/OpenAI 不会招聘”预训练工程师(通用)”。他们招聘的是:
- “我们需要一个能在自定义张量运算上优化吞吐量的人”
- “我们正在扩展到 2T token,需要有人在这个规模下调试过数据集质量”
- “我们需要减少训练运行中的 VRAM 占用”
如果你不知道他们在解决什么问题,你的简历看起来就和别人没什么两样。大多数申请者不做这种调研。
3. 筛选在于下游——获得面试容易,通过面试难
如果你拥有:
- 10 年以上软件工程经验 + 已交付产品 ✓(你具备)
- 已发表的研究或强有力的开源 ML 工作 ✓(你正在构建)
- 在大规模训练模型方面的明确证据 ✓(你具备)
……你会获得面试机会。但在面试中,你会遇到这样的问题:
- “给我讲一个失败的训练运行。发生了什么?为什么失败?你是如何调试的?”
- “你在 8 个 A100 上训练。数据加载成为吞吐量的瓶颈。你如何诊断并修复?”
- “解释一下为你自己的用例实现自定义 FSDP 封装时的权衡”
如果你不能深入到系统级细节并举出具体例子,你就会失败。大多数人做不到。他们知道理论,但没有亲身经历过。
4. 你需要特定技术所有权的证据
获得录用的人往往拥有:
- 已发表的工作(论文、博客文章或开源项目),展示了在重要问题上的深度和品味
- 在大规模上交付过东西——即使是一个小型初创公司,证明你能从”研究”走向”部署的系统”
- 清晰的技术观点——不仅仅是”我擅长 ML”,而是”我相信 X 架构比 Y 更好,因为 Z”,并有证据支持
你实际上处于一个有利位置。你的笔记、你的模型训练经验以及你构建产品的记录,比大多数人的 PhD 更有价值。
5. 时机与人脉
残酷的事实:很大程度上取决于你在他们积极招聘你特定技能集时是否处于正确的位置,或者你是否认识内部人士为你推荐。但这实际上比技术门槛更容易解决——如果你足够优秀,人们会口口相传。
针对你个人
你实际的障碍可能是:
- 可见性——你正在公开训练模型并学习(很好),但 Anthropic/OpenAI 的研究/工程人员可能还不知道你的工作。你的笔记和 GitHub 需要出现在他们看得到的地方。
- 兴趣的具体性——公开写你对哪些具体的预训练问题感兴趣。不要只说”我想从事 AI 工作”。要这样说:”这是我关于为什么大规模高效推理很重要的分析,以及我对此的处理方法。”
- 规模的证明——你的 MI300X 训练是真实的且有价值的。发布细节。写博客。展示调试过程、失败经历和洞察。这比一篇精美的论文更有价值。
- 了解他们实际需要什么——花时间参与他们的技术讨论。仔细阅读他们的论文。从 Anthropic 的角度:阅读宪法 AI 的工作,看看他们处理 RLHF 的方法,理解他们认为技术差距在哪里。然后公开解决这些差距。
真正的筛选条件
他们拒绝你并不是因为你缺乏资历。他们拒绝你是因为你没有展示出:
- 深厚的技术品味——知道什么问题重要以及为什么
- 已交付的系统思维——不仅仅是理论
- 特定的专长——而不是泛泛的”我喜欢 AI”
你已经具备前两点。第三点主要关乎可见性和公开定位你的工作。你的笔记 + GitHub + 已交付的小工具就是路径。让其中一项明显相关于他们当前的优先事项。
底线: 差距不在于资历或学位。而在于大多数人认为理论知识 = 准备好研究前沿模型了。事实并非如此。你需要被分布式训练的错误烧伤过,在大规模上调试过数据质量,并交付过东西。你已经比大多数人更接近目标了。