Talkie:1930年的复古语言模型 | AI生成和翻译

Home 2026.06

问题:请介绍 talkie (https://talkie-lm.com/introducing-talkie)。

回答:

talkie 是一个 13B 参数的“复古”语言模型,基于 260B 个 tokens 的 1931 年前英文文本训练而成,于 2026 年 4 月由 Nick Levine、David Duvenaud 和 Alec Radford 发布。其核心思想(由 Owain Evans 提出)是:使用历史文本训练语言模型,使其知识截止日期严格限定在 1930 年 12 月 31 日——成为一个模拟的过往对话伙伴,更有趣的是,它为研究语言模型提供了一个纯净的科学工具。

它为何不仅仅是玩具,而是重要的研究:

  1. 无污染泛化测试。 现代基准测试深受训练集泄露之害。一个预-1931 模型对数字计算机接触,因此你可以提出这样的问题:它能纯粹通过上下文学习 Python 吗?在 HumanEval 测试中(100 个样本并附带 few-shot 示例),复古模型的表现远逊于基于网络训练的架构双胞胎,但随着规模扩大而稳步提升——成功的方案通常是将上下文示例进行单行修改或小幅编辑,例如,通过将 + 替换为 - 来反转旋转密码。这种单字符编辑暗示模型对逆函数有一定理解,尽管其预训练数据中从未出现代码。

  2. 预测性评估。 他们通过计算模型对约 5,000 条《纽约时报》历史事件描述的每字节惊喜度(bits-per-byte surprisal)进行评分;惊喜度在 1930 年截止点后上升,在 1950-60 年代达到峰值,然后趋于平稳——这是一种量化衡量语言模型能在多大程度上“预见”其训练数据之外信息的方法。

  3. 数据多样性科学。 每一个现代模型都源自网络(直接或通过蒸馏)。一个脱离网络的模型让你能够探究:“语言模型行为”在多大程度上源于语言本身,又在多大程度上源于网络这一特定数据集。

值得了解的工程细节:

路线图: 今年夏天推出 GPT-3 级别的复古模型;将语料库扩展至超过 1T tokens 的历史文本,他们估计这足以训练出一个 GPT-3.5/ChatGPT 级别的模型。选择 1930 年作为截止点是因为这是美国公共领域的边界。部分资金和计算资源由 Coefficient Giving 和 Anthropic 提供。

具体到你的兴趣:这本质上是将 nanoGPT 式的方法论应用于一个受控数据实验,基础版和指令调优版检查点均已上传至 Hugging Face(talkie-lm/talkie-1930-13b-base, -it),相关代码在 GitHub 上——如果你想研究后训练在没有网络先验知识的情况下的表现,或复现惊喜度-年代评估,这是一个非常便于检查的模型。

参考文献:


Back Donate