神经语言模型的缩放定律 | AI生成和翻译
概述
OpenAI的Jared Kaplan与同事(包括Sam McCandlish、Tom Henighan、Tom B. Brown、Benjamin Mann、Prafulla Dhariwal、Andrew Radford和Ilya Sutskever)在2020年发表的论文《神经语言模型的缩放定律》深入探讨了大型神经语言模型的性能(以交叉熵损失衡量)如何随关键训练资源扩展。通过对基于Transformer的模型进行大量实验,他们发现了在跨越七个数量级的模型规模、数据集和计算预算范围内均成立的幂律关系。这些”缩放定律”为优化训练效率和预测性能提供了无需试错的框架。
缩放定律的核心发现
核心洞见是损失函数 \( L \) 随三个变量呈幂律下降:
- 模型规模(\( N \),参数量):\( L(N) \propto N^{-\alpha} \),其中 \( \alpha \approx 0.076 \)(针对语言建模)。更大模型初始学习更快,但整体训练速度更慢
- 数据集规模(\( D \),标记数量):\( L(D) \propto D^{-\beta} \),其中 \( \beta \approx 0.103 \)。更多数据持续降低损失,但收益随 \( D \) 增长递减
- 计算量(\( C \),浮点运算次数):\( L(C) \propto C^{-\gamma} \),其中 \( \gamma \approx 0.050 \)。该定律综合了 \( N \) 和 \( D \) 的影响,因典型训练中 \( C \approx 6ND \)
这些定律虽为经验性总结,但在不同架构(如宽度与深度影响甚微)和任务中表现出惊人一致性。其他发现包括:
- 样本效率:更大模型的数据效率显著更高——例如,100倍大的模型仅需约1/10数据即可达到相同损失
- 过拟合:可根据 \( N/D \) 比率预测,当 \( N \) 超过 \( D \) 特定倍数时出现,遵循 \( L_{\text{测试}} - L_{\text{训练}} \propto (N/D)^\kappa \)
- 最优分配:在固定计算预算下,最佳策略是用适量数据训练超大规模模型,并提前停止(未完全收敛)以避免收益递减
理论与现实意义
论文指出这些定律源于神经网络的基本特性,如噪声导致的不可约损失或固有困惑度。它们挑战了”数据越大越好”的直觉,主张通过巨型模型从有限计算中榨取更多性能。这深刻影响了现代AI发展,为GPT-3等巨型模型的投入提供了理论依据——预测规模化扩展必将带来突破性进展。
简言之,该论文提出了”计算最优”路径:优先扩大模型规模,使用刚好充足的高质量数据,并进行高效训练——为LLM的规模化时代铺平道路。