神经网络最大更新参数化方法 | AI生成和翻译

Home 2025.10

什么是 μP(最大更新参数化)?

μP(Maximal Update Parametrization)是由数学家兼AI研究员Greg Yang(现就职于xAI,此前任职微软研究院)开发的神经网络参数化技术。该技术在其2022年发表的论文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》中提出,通过对深度学习模型权重进行重新参数化,使其更具可扩展性和训练效率。

核心目标

μP的核心目标是保持不同模型规模间的超参数调优稳定性。在传统设置(如标准参数化SP)中,每当模型规模扩大时(例如从数百万参数扩展到数十亿参数),由于梯度和更新变得不稳定(通常随模型宽度或深度呈二次方缩放),学习率等超参数都需要重新调整。μP通过转换参数使得”最大更新”(可能的最大梯度步长)在不同规模下保持一致性,从而解决了这个问题。这实现了μTransfer工作流:只需在微型代理模型上调试超参数,即可直接应用于大规模目标模型而无需任何调整。

关键优势

数学原理简析

在SP中,权重方差会不稳定增长,导致梯度爆炸/消失。μP通过重新参数化权重(例如对线性层按输入维度缩放)来规范化Fisher信息矩阵,确保梯度流保持平衡。这使得最优超参数(如学习率)在不同规模下大致保持恒定,无需针对不同规模重新调试。

μP建立在Yang更宏大的”张量程序”框架基础上,该框架用于理解神经网络的无限宽度/深度极限。该技术仍在持续演进——截至2025年的最新研究强调其在超越超参数迁移的最大化特征学习中的作用。

参考文献


Back

x-ai/grok-4-fast

Donate