视觉Transformer作者及其贡献 | AI生成和翻译

Home 2025.10

《一幅图像价值16x16个词汇:规模化图像识别的Transformer模型》作者简介

2020年由Alexey Dosovitskiy与谷歌同事共同发表的突破性论文《一幅图像价值16x16个词汇:规模化图像识别的Transformer模型》,标志着计算机视觉领域的重大转折。该论文提出了Vision Transformer(ViT)模型,将原本为自然语言处理设计的Transformer架构直接应用于图像块,在大型数据集(如JFT-300M)上进行预训练后,在ImageNet等基准测试中达到了顶尖性能。这项工作证明了在充足算力和数据支持下,纯Transformer模型在效率和准确度上能够超越卷积神经网络(CNN),对多模态AI和可扩展视觉模型的后续发展产生了深远影响。

这篇论文是12位研究人员(主要来自谷歌大脑苏黎世团队)的合作成果,融合了深度学习、序列建模和大规模训练领域的专业经验。以下是对核心作者的概述,重点介绍他们的背景及对领域的贡献。(为简洁起见,此处聚焦于主要贡献者;完整名单包括Dirk Weissenborn、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly和Jakob Uszkoreit——这些谷歌系研究者均在Transformer架构、优化算法及视觉-语言融合领域有深厚积累。)

核心作者与背景

这场主要由谷歌大脑苏黎世团队主导的合作,充分利用团队与TPU集群的地理优势开展大规模实验——累计超2.5万TPU日——证明了Transformer架构在文本领域之外的可行性。多数作者后续流向Meta、OpenAI和Anthropic等顶尖AI实验室,印证了ViT对领域的持久影响力。

参考文献


Back

x-ai/grok-4-fast

Donate