苏剑林:研究员、博主与人工智能贡献者 | AI生成和翻译
Question: 全面介绍一下苏剑林、他的博客及其工作。
Answer:
关于苏剑林
苏剑林(Su Jianlin),1993年出生于中国广东云浮的一个小村庄,是一位著名的研究员、博主和 Machine Learning 从业者,在网络上以 BoJone 的 ID 闻名。他拥有华南师范大学数学学士学位,以及中山大学基础数学硕士学位(研究方向为数学理论在生物学中的应用,2019年毕业)。
从少年时代起,他就对科学表现出浓厚的兴趣,尤其是数学和化学,随后扩展到物理、天文学和计算机。他崇拜物理学家 Richard Feynman,并自比为一个喜欢“钻牛角尖”的人——坚持探索细节直到取得突破。他的爱好包括阅读、写作、中国象棋、烹饪以及对各种科学领域的理论追求。
毕业后,他加入 追一科技(Zhuiyi Technology,一家专注于 NLP 和 AI 的公司)担任 Machine Learning 算法工程师。截至 2025 年(32岁),他继续为 AI 领域做出贡献,并在不同的资料中提到过其任职经历(例如在某些文章中提到 Moonshot AI,但他仍主要以独立钻研和开源工作而闻名)。
苏剑林因其对复杂主题清晰且深入的解释而在中国 AI 社区享有极高声誉,被崇拜者称为“苏神”。他在 arXiv 和各类期刊上发表过多篇论文,其中他是 RoFormer 的共同作者(该论文引入了 Rotary Position Embedding,即 RoPE,目前被 LLaMA、GPT 变体和 Google 的模型广泛采用)。
他的博客:科学空间 (Scientific Spaces) - https://kexue.fm
“科学空间”(Kexue.fm,也可通过 spaces.ac.cn 访问)品牌创建于 2009年,是苏剑林用于分享自然科学知识和生活感悟的个人博客。它最初是一个探索天文学、数学、物理、化学、生物以及摄影和生活见解的平台。
随着时间的推移,博客内容重心显著转向了 Machine Learning、Natural Language Processing (NLP)、Deep Learning 优化、Generative Models(如 Diffusion Models、VAE、GAN)以及 Transformer 架构。目前该博客已运行超过 16 年(版权更新至 2025 年),包含数千篇文章,涵盖数学、物理化学、大数据/信息时代、天文学、生物学等类别。
博客风格专业且易于理解:长篇文章配有严谨的数学推导、代码示例,以及对最新论文的独到点评。截至 2025 年底的近作侧重于 Deep Learning 中的高级“炼丹术”(训练技巧),如 Learning Rate Schedules、Optimizers(如 Muon)、Weight Decay、Diffusion Models 和基于流形的 Gradient Descent。
该博客通过评论区鼓励读者互动,支持 CC 协议下的开放转载,并曾获得国家天文台(LAMOST 项目)等机构的支持。苏剑林还开发了 Cool Papers (papers.cool) 等工具,这是一个利用 Kimi 等模型提供摘要和问答功能的 AI 辅助论文浏览网站。
他的工作与贡献
苏剑林的主要影响力在于 NLP 和 Deep Learning 领域,他架起了严谨数学理论与工程实践之间的桥梁:
- 开源项目 (GitHub @bojone, 1.2万+ 关注者):
- bert4keras: 一个轻量级、对用户友好的 BERT 和 Transformer 的 Keras 实现,因其简洁和丰富的示例而广受欢迎(5k+ stars)。
- GlobalPointer: 一种用于嵌套/非嵌套命名实体识别的得力方法。
- rerope: 修正后的 Rotary Position Embeddings。
- bytepiece: 高压缩比的 Tokenizer。
- Keras-DDPM: Diffusion Model 的实现。
- 其他诸如 NBCE (Naive Bayes Context Extension) 和各种对 BERT 的增强改进方案。
- 关键研究:
- RoFormer (2021) 共同作者:引入了 Rotary Position Embedding (RoPE),提升了 Transformer 处理长序列的能力;这在现代 LLM 中具有深远影响力。
- 在 Variational Inference、VAE、应用于天文学的 Residual Networks 以及优化算法分析方面的工作。
- 关于 Diffusion Models (31+ 篇系列文章)、SSM、MoE、Energy-based Models 以及“让训练更科学”(如 SGD 收敛性、AdamW 洞察)的博客系列。
他的贡献强调理论深度、实用工具和知识传播,通过开源代码和教育性写作显著影响了中国的 AI 从业者。
参考资料:
- https://kexue.fm
- https://kexue.fm/me.html
- https://github.com/bojone
- https://scholar.google.com.hk/citations?user=cdbdaksAAAAJ
- https://arxiv.org/abs/2104.09864 (RoFormer 论文)
- https://blog.csdn.net/sinat_37574187/article/details/149498108 (资料汇总)
- https://blog.csdn.net/liyongqiang2420/article/details/117128888 (苏剑林及其博客介绍)