μ子:结构感知矩阵优化器 | AI生成和翻译
Kimi 中的“Muon”指的是一种先进的优化器——具体来说,是用于训练 Kimi K2 语言模型的结构感知矩阵正交化优化器。
什么是 Muon 优化器?
-
矩阵感知优化 与 AdamW 或 SGD 不同,Muon 将权重矩阵视为几何实体,而非独立的标量参数。它应用牛顿-舒尔茨迭代对动量平均梯度进行正交化,从而产生条件良好、平衡的更新,同时尊重矩阵的行和列结构 (Medium, kellerjordan.github.io)。
-
通过牛顿-舒尔茨进行正交化 Muon 不执行昂贵的奇异值分解,而是使用一种快速迭代方法(牛顿-舒尔茨)来近似梯度的最近正交矩阵。这使得更新保持在谱范数约束下,保留了能量并在所有方向上均匀分散学习 (Medium, kellerjordan.github.io)。
-
流程调整 标准的更新流程——梯度 → 动量 → 参数更新——被替换为: 梯度 → 动量 → 牛顿-舒尔茨正交化 → 参数更新。 这一修改提高了二维参数矩阵的训练效率和稳定性 (Medium, kellerjordan.github.io)。
-
实际应用高效 尽管增加了少量计算开销,但 Muon 带来了显著的速度提升:
- 在 NanoGPT 竞速中创下记录,训练时间缩短了约 35% (kellerjordan.github.io)。
- 在大语言模型训练中,与权重衰减和逐参数 RMS 调整结合时,扩展性良好 (arXiv)。
-
坚实的理论基础 近期的研究支持了 Muon 的收敛特性、权重衰减的益处以及最佳批量大小。研究证实了其在各种实际场景下具有更紧的理论界限和效率 (arXiv)。
Muon 在 Kimi K2 中的作用
Kimi K2 是 Moonshot AI 的专家混合模型,拥有总计 1 万亿参数(激活 320 亿),为智能体能力优化。它在知识、推理和代码基准测试中取得了卓越的性能,这部分归功于使用了 Muon(以及一个称为 MuonClip 的变体)进行训练 (Hugging Face, Poe)。
- MuonClip 优化器 指的是在超大规模应用 Muon,同时解决此类大模型固有的稳定性挑战 (Hugging Face, Poe)。
- 该优化器是实现零训练不稳定性(在约 15.5 万亿 token 的大型数据集上)并交付最先进结果的关键 (Hugging Face)。
总结(按要求未使用表格)
- Muon = “通过牛顿-舒尔茨正交化的动量”——一种用正交化更新替代原始梯度更新的优化器,改善了矩阵参数的学习动态。
- 它保留了结构,确保了平衡的更新,并通过迭代正交化而非昂贵的分解保持了效率。
- Kimi K2 利用 Muon(和 MuonClip)突破了大规模 MoE 训练的极限,以稳定性和计算效率实现了顶级性能。
如果您想深入了解——例如 Muon 与 AdamW 在训练轨迹上的比较、MuonClip 如何为 MoE 调整算法,或者牛顿-舒尔茨方法在代码中如何工作——请告诉我!