拉德福德复古语言模型时代 | AI生成和翻译

Home 2026.06

问题: 前 OpenAI 研究员 Alec Radford 近年来在做什么?

回答:

快速回顾一下他为何重要:Radford 是 GPT-1、GPT-2、CLIP 和 Whisper 的第一作者,也是 DALL-E 的核心贡献者——他是一位技术型独立贡献者,从未以管理层的身份领导过团队,却不断推动领域向前发展,他名字位列第一的论文定义了当今的人工智能时代。以下是他近期的动态时间线:

2024 年 12 月 —— 离开 OpenAI。 他告诉同事,他将离开并独立开展研究,并表示计划与 OpenAI 及其他人工智能开发者合作。没有成立新实验室,也没有创办初创公司——只是独立研究,这非常符合他一贯的风格。

2025 年 3 月至 4 月 —— Thinking Machines Lab 顾问。 他加入 Mira Murati 的 Thinking Machines Lab 担任顾问,同行的还有 OpenAI 前首席研究官 Bob McGrew。仅担任顾问角色,并非全职。

2026 年 4 月 28 日 —— 发布 Talkie,一个“复古语言模型”。 鉴于你对 nanoGPT/模型训练的兴趣,这可能是最有趣的一条。Radford 与 Nick Levine 和 David Duvenaud 合作,在 2600 亿个 token 的英文文本上训练了一个 130 亿参数模型,所有文本的日期均早于 1931 年 1 月 1 日——包括历史书籍、报纸、科学期刊、专利和判例法。没有网络爬虫数据,没有维基百科,也没有现代代码。关键技术细节:

如果你想亲自尝试:模型权重在 Hugging Face 上(Apache 2.0 许可,基础模型约 53 GB,可以舒适地放入你的 MI300X,量化后的 -it 版本可以在 4070 上运行),推理库在 GitHub 上,在线聊天地址是 talkie-lm.com。鉴于你正在从头训练 GPT-2 规模的模型,Talkie 的数据集工程方面(OCR 流水线、时间泄漏过滤——日期错误的文档或带有时代错位编辑引言的历史文本可能会损害历史保真度)可能是最值得深入研究的部分。

参考资料:


Back Donate