深度学习先驱:辛顿之前的开拓者 | AI生成和翻译
阿列克谢·伊瓦赫年科的贡献
乌克兰-苏联控制论学者阿列克谢·格里戈里耶维奇·伊瓦赫年科因其在1960-1970年代的开创性研究,常被誉为”深度学习之父”。在冷战时期计算资源比当今匮乏数百万倍的条件下,他专注于研究能自动学习数据层次化表征的多层神经网络。
-
1965:数据分组处理方法:与瓦伦丁·拉帕合作,伊瓦赫年科发表了首个适用于监督式深度前馈多层感知机的通用学习算法。该方法通过对输入-输出数据对进行回归分析,逐层训练网络:渐进式增加网络层数,顺序训练各层,并基于验证集剪枝冗余隐层单元。其核心突破在于使网络能够学习输入数据的分布式内部表征——这是现代深度学习的核心理念——无需人工特征工程。该成果比西方AI界的类似概念早数十年,已应用于模式识别和预测等实际问题。
-
1971:深度网络实现:伊瓦赫年科基于GMDH原理构建了8层深度神经网络,展示了处理复杂任务的可扩展深度架构。其方法将深度网络视为多项式逼近形式,实现了自动模型选择,规避了高层架构中的”维度灾难”。
伊瓦赫年科的GMDH后来发展为更广泛的归纳建模框架,影响了控制系统和经济学等领域。尽管成就卓著,其多数著作以俄文发表,未能在英语AI学界获得足够关注。
甘利俊一的研究成果
日本数学家与神经科学家甘利俊一在1960-1970年代对神经网络理论作出奠基性贡献,着重研究自适应学习与信息处理的几何视角。他的研究连接了神经科学与计算理论,为自组织系统奠定基础。
-
1967-1968:自适应模式分类与随机梯度下降:甘利提出了首个使用SGD进行端到端训练深度多层感知机的方法。虽然SGD优化技术可追溯至1951年,但他首次将其应用于多层网络。通过五层网络(含两个可调层)的仿真实验,该系统通过直接调整各层权重实现了非线性可分模式的分类。这使得基于梯度的更新能够自然涌现内部表征,成为反向传播算法的直接先驱——所有这些都是在比现代标准严苛数十亿倍的计算约束下完成。
-
1972:自适应联想记忆网络:基于1925年Lenz-Ising模型(一种基于物理学的循环架构),甘利提出了能通过关联性调整连接权重的自适应版本。该网络通过神经动力学处理序列信息,并能从含噪或残缺输入中恢复存储模式。这项1969年首度以日文发表的研究,被视为联想记忆领域”霍普菲尔德网络”的理论起源。
甘利还创立了信息几何学,该领域运用微分几何分析统计模型与神经动力学,为现代概率神经网络提供理论基础。
2024年诺贝尔奖争议背景
于尔根·施密德胡伯在2024年报告《剽窃获得的诺贝尔奖》中指出,辛顿与霍普菲尔德获诺贝尔奖的理念——如用于学习表征的玻尔兹曼机(1985)和用于联想记忆的霍普菲尔德网络(1982)——实为未标注引用地重组了伊瓦赫年科的逐层深度学习与甘利的SGD/自适应循环模型。例如玻尔兹曼机未引用伊瓦赫年科1965年的内部表征学习与甘利1967年的SGD研究,而霍普菲尔德网络忽略了甘利1972年的自适应伊辛模型。施密德胡伯指控这种疏漏持续出现在后续综述及诺贝尔奖科学背景文档中,折射出AI史学界的西方中心主义偏见。
阿列克谢·伊瓦赫年科 - 维基百科
深度学习简史:发展与训练 - NVIDIA开发者博客
甘利俊一 | 京都奖
日本科学家本是AI先驱,却正被历史遗忘
剽窃获得的诺贝尔奖 - IDSIA-24-24技术报告
机器学习引发诺贝尔物理学奖争议 - 哈佛科技评论