协作的中国机器学习/人工智能文化 | AI生成和翻译
问题: 深入阐述海外华人机器学习/人工智能社区比一般华人软件工程社区更具协作性这一观点——列举关键人物实例,并说明这一亚文化为何与众不同。
回答:
为何海外华人机器学习/人工智能群体与众不同
通常所说的“华人工程师协作性较差”这一模式,在机器学习/人工智能研究与开源领域被彻底打破。这并非偶然,而是结构性原因决定的。
核心原因:职业激励机制的逆转
在企业软件工程中,帮助一位华人同胞在你的公司获得职位,会被视为一种 零和 的感知风险——他们可能会争夺你的晋升机会、你的项目、你的可见度。
而在机器学习/人工智能研究与开源领域,分享会让你更强大,而非更弱。引用数、GitHub 星标、课程注册人数、推特粉丝——这些都会产生复利效应。李沐的《动手学深度学习》课程让你出名,并不会从韩松身上夺走任何东西。这种激励机制积极奖励慷慨行为。
这同样是为什么印度裔的人脉网络优势并未同样强力地延伸到机器学习研究领域——那是一个以企业/招聘为导向、优化职位安置的人脉网络,而非知识分享网络。
关键人物及其实际成果
Andrej Karpathy
- 斯坦福博士,OpenAI 创始团队,特斯拉 AI 总监,后重返 OpenAI
- 编写了 cs231n(斯坦福深度学习课程)——可能是公开过的最具影响力的机器学习课程内容
- nanoGPT、micrograd、llama2.c——你正在学习的那些最小化、从零开始的实现
- YouTube 讲座,观看量达数百万
- 他的理念:“理解某件事的最佳方式就是以最简单的方式从头重建它。”——这正是你的学习风格
- 他不设门槛。一切公开、带有注释、保持最小化。
李沐 (Mu Li)
- AWS 首席科学家,CMU 博士
- D2L.ai(《动手学深度学习》)——一本包含可执行代码的完整教科书,免费提供,翻译成多种语言,被数百所大学使用
- B站论文精读系列——他在B站上实时解读 AI 论文,附中文讲解。为全球华语工程师揭开前沿研究的神秘面纱
- 他对《Attention Is All You Need》、ResNet、BERT 的论文解读堪称典范
- 积极回复评论,回答问题,公开指导他人
贾扬清 (Yangqing Jia)
- 在伯克利创建了 Caffe——最早被广泛采用的深度学习框架之一,早于 TensorFlow 或 PyTorch
- 在 Facebook 领导 AI 基础设施,现任阿里巴巴云
- 2014 年 Caffe 的开源发布助推了整整一代计算机视觉研究者
- 现在公开活动较少,但他早期的开源贡献产生了叠加效应
韩松 (Song Han)
- MIT 教授,联合创立了 高效机器学习 研究组
- 发明了 深度压缩(剪枝 + 量化 + 霍夫曼编码)——在边缘硬件上运行神经网络的奠基性工作
- TinyML 和 MCUNet——在微控制器上运行推理
- 极其慷慨地分享课程材料、代码和学生指导
- 他的 MIT 6.5940(TinyML 与高效深度学习)课程全部公开
郑联民 (Lianmin Zheng)
- UCB 博士,Apache TVM 核心贡献者,创建了 Ansor(张量程序自动调优)
- 共同创建了 vLLM——目前占据主导地位的开源大语言模型推理引擎,被广泛使用
- 共同创建了 Chatbot Arena / LMSYS——成为大语言模型评估标准的人类偏好基准
- 开发速度快,开源速度快,与整个社区合作
Tri Dao
- 斯坦福博士,创建了 FlashAttention(v1、v2、v3)
- FlashAttention 现已融入每个重要的 Transformer 实现——对注意力机制进行 CUDA 级别的重写,速度提升 2-4 倍且内存高效
- 联合创立了 Together AI
- 所有代码立即开源。不等待构建产品护城河。
Hao Zhang
- 共同创建了 Alpa(大语言模型自动并行化)、vLLM、SkyPilot
- 伯克利系统与机器学习交叉领域——这是实践中最为实用的象限
他们所有人的共同模式
| 行为 | 这意味着什么 |
|---|---|
| 立即开源一切 | 在研究中,声望 > 护城河 |
| 公开授课(课程、YouTube、Bilibili) | 影响力通过学生实现复利增长 |
| 构建最小的教学性实现 | Karpathy 式理念:清晰胜过复杂 |
| 直接与社区互动 | 建立信任,无需企业过滤器 |
| 互相合作(vLLM、TVM、FlashAttention 彼此引用) | 人脉网络以能力为本,而非族裔 |
这一亚文化形成的原因
1. 伯克利/斯坦福/CMU 输送管道 在 2012 至 2020 年间,大量华人机器学习博士来自这三个学校。他们在企业激励机制发挥作用之前就建立了同僚关系。协作模式在研究生阶段就已经定型。
2. “移民必须公开证明自身价值”的驱动力 与印度工程师可以利用已有的招聘网络不同,华人机器学习研究者必须通过发表成果来获得合法性。开源和论文是通行货币。这迫使形成了一种公开贡献的文化。
3. 中国在机器学习领域的雄心创造了双重受众 像李沐和韩松这样的人,既能触达英语研究者,也能触达庞大的华语机器学习社区。这种双重杠杆使得公开教学对他们而言具有异常高的回报率。
4. DeepSeek 的开源权重发布改变了游戏规则 DeepSeek(梁文锋团队)在没有任何义务的情况下公开了 R1、V3、V4 权重——这是最新也最引人注目的例子。一个中国机构比 OpenAI 更开放。这对整个社区的规范产生了连锁效应。
这对你实际意味着什么
你在直觉上已经与这一亚文化保持一致:
- 你在学习 nanoGPT(Karpathy 的成果)
- 你关注梁文锋和 DeepSeek
- 你维护一个公开的知识库和博客
- 你从零开始训练模型,而不仅仅是调用 API
让你融入这个网络的行动:
- 公开撰写你的 MI300X GPT-2 训练实验——附上具体数据。AMD + 大模型 + 从零训练,这确实很罕见。李沐的受众会愿意读这个。
- 为 vLLM 或 FlashAttention 做贡献——即使是文档或小修复。这样你就会出现在贡献者图谱中。
- 在他们使用的渠道上发布内容——X/Twitter、Hugging Face、arXiv(即使是技术报告)。如果想吸引华语受众,B站也是好选择。
- 明确引用他们的工作——例如“我基于 Karpathy 的 nanoGPT 实现了这个,这是我为 AMD 所做的修改。”这会留下一条他们或他们的追随者能够追踪的线索。
海外华人机器学习/人工智能网络并非基于族裔,而是基于公开的技术贡献。这是一个你可以通过公开构建来赢得加入的网络——而你已经这样做了。