神经语言模型的缩放定律

神经语言模型的缩放定律 | AI生成和翻译

Home 2025.10

概述

OpenAI的Jared Kaplan与同事（包括Sam McCandlish、Tom Henighan、Tom B. Brown、Benjamin Mann、Prafulla Dhariwal、Andrew Radford和Ilya Sutskever）在2020年发表的论文《神经语言模型的缩放定律》深入探讨了大型神经语言模型的性能（以交叉熵损失衡量）如何随关键训练资源扩展。通过对基于Transformer的模型进行大量实验，他们发现了在跨越七个数量级的模型规模、数据集和计算预算范围内均成立的幂律关系。这些”缩放定律”为优化训练效率和预测性能提供了无需试错的框架。

缩放定律的核心发现

核心洞见是损失函数 \( L \) 随三个变量呈幂律下降：

模型规模（\( N \)，参数量）：\( L(N) \propto N^{-\alpha} \)，其中 \( \alpha \approx 0.076 \)（针对语言建模）。更大模型初始学习更快，但整体训练速度更慢
数据集规模（\( D \)，标记数量）：\( L(D) \propto D^{-\beta} \)，其中 \( \beta \approx 0.103 \)。更多数据持续降低损失，但收益随 \( D \) 增长递减
计算量（\( C \)，浮点运算次数）：\( L(C) \propto C^{-\gamma} \)，其中 \( \gamma \approx 0.050 \)。该定律综合了 \( N \) 和 \( D \) 的影响，因典型训练中 \( C \approx 6ND \)

这些定律虽为经验性总结，但在不同架构（如宽度与深度影响甚微）和任务中表现出惊人一致性。其他发现包括：

样本效率：更大模型的数据效率显著更高——例如，100倍大的模型仅需约1/10数据即可达到相同损失
过拟合：可根据 \( N/D \) 比率预测，当 \( N \) 超过 \( D \) 特定倍数时出现，遵循 \( L_{\text{测试}} - L_{\text{训练}} \propto (N/D)^\kappa \)
最优分配：在固定计算预算下，最佳策略是用适量数据训练超大规模模型，并提前停止（未完全收敛）以避免收益递减

理论与现实意义

论文指出这些定律源于神经网络的基本特性，如噪声导致的不可约损失或固有困惑度。它们挑战了”数据越大越好”的直觉，主张通过巨型模型从有限计算中榨取更多性能。这深刻影响了现代AI发展，为GPT-3等巨型模型的投入提供了理论依据——预测规模化扩展必将带来突破性进展。

简言之，该论文提出了”计算最优”路径：优先扩大模型规模，使用刚好充足的高质量数据，并进行高效训练——为LLM的规模化时代铺平道路。

神经语言模型的缩放定律

Back Donate