测试对未知元素的泛化能力

测试对未知元素的泛化能力 | AI生成和翻译

Home 2025.10

在Ilya Sutskever获得NeurIPS 2024时间检验奖的演讲中，他回顾了2014年发表的《使用神经网络进行序列到序列学习》论文（及其早期相关研究，如关于RNN语言建模的博士论文），反思了早期构建泛化神经语言模型的努力。关键挑战在于确保模型不仅能记忆训练数据，还能处理新颖输入——即避免过拟合。

他提到的检测过拟合的“朴素方法”涉及在训练语料库（常称为“数据库”）中未出现的生词或n元语法（多词序列）上测试模型。

为何采用这种方法？

早期语言模型中的过拟合风险：像n元语法模型（如二元组或三元组）这样的简单基线常通过“过拟合”来仅当训练中出现完全相同的序列时才进行流畅预测。它们对任何新颖内容赋予近乎零的概率，无法实现泛化。
朴素检测测试：为检验真实泛化能力（非过拟合），需在经过设计的保留验证/测试集上进行训练，该集合包含刻意设置的“未见”元素：
- 将常见短语替换为自创但合理的短语（例如在其博士论文中，使用虚构引文如“（ABC等人，2003年）”测试句子补全——该字符串因非常规大写和作者名而未被模型接触过）。
- 衡量模型是否能为新颖内容分配合理概率、生成连贯补全，或保持低困惑度/BLEU分数。
若模型在这些未见项目上失败（如高困惑度或输出不连贯），但在已见训练数据上表现出色，则说明存在过拟合（记忆特定内容而非学习模式）。若成功，则表明通过习得表征（如捕捉语法/语义的LSTM状态）实现了泛化。

其研究中的实例

在seq2seq论文（2014年）中：使用固定词汇表（8万法语词，16万英语词），将词汇表外（OOV）词替换为“UNK”。为检测泛化问题，他们对OOV出现情况惩罚BLEU分数，并绘制了“平均词频排名”（越罕见越接近未见状态）与性能的关系图。LSTM在处理稀有/未见词时表现良好，未出现性能下降，这与基线模型不同。
在其博士论文（2013年，关于RNN语言建模）中：针对结构化句子补全，测试了完全新颖的字符串如“（ABC等人，2003年）”（因罕见性在训练中未出现）。乘法循环神经网络（MRNN）展现出强大泛化能力（如正确预测年份/上下文），而n元语法基线模型除非存在完全匹配否则无法处理——凸显了其过拟合特性。

这种“检查未见词/n元语法”测试是在丢弃法或验证曲线等先进技术出现前的一种直观早期启发式方法。Sutskever在演讲中指出，此类洞见推动了现代大语言模型的规模化发展，其中对海量未见数据的泛化能力仍是核心。

序列到序列学习与神经网络（arXiv PDF）
Ilya Sutskever博士论文（PDF）
Ilya Sutskever NeurIPS 2024演讲视频

Back Donate