Andrej Karpathy 关于 llm.c CUDA 的主题演讲

Andrej Karpathy 关于 llm.c CUDA 的主题演讲 | AI生成和翻译

Home 2026.01

问题：https://www.youtube.com/watch?v=aR6CzM0x-g0 这个 YouTube 视频讲了什么？

回答：

该视频是 Andrej Karpathy 在由 Accel 组织的首届 CUDA Mode IRL hackathon 活动上发表的名为 **“CUDA Mode Keynote

Andrej Karpathy

Eureka Labs”** 的主题演讲。

在演讲中，Karpathy 详细介绍了他的项目 llm.c 的创建过程和细节——这是一个纯粹使用 C/CUDA 从零开始实现语言模型训练（专门用于重现 GPT-2 风格的训练）的项目，几乎没有外部依赖（除了可选的用于 FlashAttention 的 cuBLAS）。

他涵盖的主要观点：

动机：在制作关于训练 LLM 的教育类 YouTube 视频时，他对 PyTorch 的 bug（特别是 eval/inference 期间的 torch.compile 问题）感到沮丧。他决定用纯 C 语言重写一切，以重新获得完全的控制权、透明度和理解力。
实现方法：
- 首先使用纯 C 语言，通过简单的 float 数组手动编写 forward + backward passes（没有任何高级抽象）。
- 所有内存在启动时一次性预分配到一个大的 blob 中 → 确定性行为，训练期间没有 malloc。
- 逐步将各部分迁移到 CUDA kernels，并进行逐步优化（经历了多个 kernel 版本，直到 “Kernel 6”）。
- 使用了 shared memory、warp-level primitives、cache-aware loading、bfloat16、FlashAttention、kernel fusion、gradient checkpointing/recomputation、stochastic rounding、packed data structures 等技术。
- 随后通过 NCCL 和 optimizer state sharding 增加了多 GPU/多节点支持。
结果：
- 在某些设置下，训练 GPT-2（124M 到约 1.6B 规模）模型比等效的 PyTorch 版本更快。
- 在 H100 GPU 上实现了约 50% 的 Model FLOPs Utilization (MFU)。
- 在单台 H100 节点上运行 GPT-2 124M 训练仅需约 24 小时，成本约为 600 美元。
- 内存使用明显更少，且在此特定 workload 下与 PyTorch 相比具有竞争力甚至更快。
哲学与呼吁：
- llm.c 刻意保持简洁和可读性（约 3,000 行 C 代码）。
- 它作为一个极简、可理解的参考架构（reference architecture），展示了整个 LLM 训练栈是如何运作的。
- 鼓励他人构建类似的、能放入 LLM context window 的参考实现，以便未来强大的 coding LLMs 可以直接阅读、理解并改进此类代码。
- 推测随着 LLM 的编程能力大幅提升，它们最终可以生成自定义 CUDA kernels，甚至在许多用例中取代高级框架。

他还提到了帮助优化代码的社区贡献、学习现代 CUDA 的挑战（资源过时），以及未来的计划，如增加 Llama 3.1 支持和 FP8。

这场演讲技术性很强，但如果你熟悉深度学习基础知识，它是易于理解的；演讲为英文，时长约 45-60 分钟，包含带有代码片段的幻灯片。

Karpathy 还写了一条详细的 Twitter/X 线程来进一步拆解。

参考资料：

Back Donate