神经语言模型的缩放定律 | AI生成和翻译

Home 2025.10

概述

OpenAI的Jared Kaplan与同事(包括Sam McCandlish、Tom Henighan、Tom B. Brown、Benjamin Mann、Prafulla Dhariwal、Andrew Radford和Ilya Sutskever)在2020年发表的论文《神经语言模型的缩放定律》深入探讨了大型神经语言模型的性能(以交叉熵损失衡量)如何随关键训练资源扩展。通过对基于Transformer的模型进行大量实验,他们发现了在跨越七个数量级的模型规模、数据集和计算预算范围内均成立的幂律关系。这些”缩放定律”为优化训练效率和预测性能提供了无需试错的框架。

缩放定律的核心发现

核心洞见是损失函数 \( L \) 随三个变量呈幂律下降:

这些定律虽为经验性总结,但在不同架构(如宽度与深度影响甚微)和任务中表现出惊人一致性。其他发现包括:

理论与现实意义

论文指出这些定律源于神经网络的基本特性,如噪声导致的不可约损失或固有困惑度。它们挑战了”数据越大越好”的直觉,主张通过巨型模型从有限计算中榨取更多性能。这深刻影响了现代AI发展,为GPT-3等巨型模型的投入提供了理论依据——预测规模化扩展必将带来突破性进展。

简言之,该论文提出了”计算最优”路径:优先扩大模型规模,使用刚好充足的高质量数据,并进行高效训练——为LLM的规模化时代铺平道路。

神经语言模型的缩放定律


Back

x-ai/grok-4-fast

Donate