Talkie：1930年的复古语言模型

Talkie：1930年的复古语言模型 | AI生成和翻译

首页 2026.06

问题：请介绍 talkie (https://talkie-lm.com/introducing-talkie)。

回答：

talkie 是一个 13B 参数的“复古”语言模型，基于 260B 个 tokens 的 1931 年前英文文本训练而成，于 2026 年 4 月由 Nick Levine、David Duvenaud 和 Alec Radford 发布。其核心思想（由 Owain Evans 提出）是：仅使用历史文本训练语言模型，使其知识截止日期严格限定在 1930 年 12 月 31 日——成为一个模拟的过往对话伙伴，更有趣的是，它为研究语言模型提供了一个纯净的科学工具。

它为何不仅仅是玩具，而是重要的研究：

无污染泛化测试。 现代基准测试深受训练集泄露之害。一个预-1931 模型对数字计算机零接触，因此你可以提出这样的问题：它能纯粹通过上下文学习 Python 吗？在 HumanEval 测试中（100 个样本并附带 few-shot 示例），复古模型的表现远逊于基于网络训练的架构双胞胎，但随着规模扩大而稳步提升——成功的方案通常是将上下文示例进行单行修改或小幅编辑，例如，通过将 + 替换为 - 来反转旋转密码。这种单字符编辑暗示模型对逆函数有一定理解，尽管其预训练数据中从未出现代码。
预测性评估。 他们通过计算模型对约 5,000 条《纽约时报》历史事件描述的每字节惊喜度（bits-per-byte surprisal）进行评分；惊喜度在 1930 年截止点后上升，在 1950-60 年代达到峰值，然后趋于平稳——这是一种量化衡量语言模型能在多大程度上“预见”其训练数据之外信息的方法。
数据多样性科学。 每一个现代模型都源自网络（直接或通过蒸馏）。一个脱离网络的模型让你能够探究：“语言模型行为”在多大程度上源于语言本身，又在多大程度上源于网络这一特定数据集。

值得了解的工程细节：

现代双胞胎基线： 采用相同架构，在 FineWeb 数据集上以相等 FLOPs 训练。talkie 在知识评估中表现不佳；过滤掉不合时宜的问题可将差距缩小一半，而核心语言理解和计算能力则相差无几。
时间泄露是难题。 他们使用 n-gram 时代错误分类器来过滤语料库，但这并不完美——模型仍然知道罗斯福新政以及一些二战及战后的事实（他们的 7B 模型知道得更多）。
OCR 是数据瓶颈。 所有 1931 年前的文本都来自扫描件。传统 OCR 转录仅能达到人工转录学习效率的 30%；通过正则表达式清洗可恢复至 70%。现代 VLM OCR 更准确，但会将现代事实幻觉纳入语料库——因此他们正在构建一个专用的复古 OCR 系统。
无现代聊天数据的后训练： 从结构规整的历史文本（礼仪手册、食谱、百科全书）中挖掘指令对进行 SFT → 以 Claude Sonnet 4.6 为裁判进行在线 DPO（指令遵循评分从 2.0 提升至 3.4，按 5 分制）→ 对通过拒绝采样获得的 Claude-talkie 多轮对话进行最终 SFT。他们指出，RLAIF 不可避免地会注入时代错误（7B 模型开始用列表体说话），并希望使用“复古模型作为裁判”来实现完全自举的流程。

路线图： 今年夏天推出 GPT-3 级别的复古模型；将语料库扩展至超过 1T tokens 的历史文本，他们估计这足以训练出一个 GPT-3.5/ChatGPT 级别的模型。选择 1930 年作为截止点是因为这是美国公共领域的边界。部分资金和计算资源由 Coefficient Giving 和 Anthropic 提供。

具体到你的兴趣：这本质上是将 nanoGPT 式的方法论应用于一个受控数据实验，基础版和指令调优版检查点均已上传至 Hugging Face（talkie-lm/talkie-1930-13b-base, -it），相关代码在 GitHub 上——如果你想研究后训练在没有网络先验知识的情况下的表现，或复现惊喜度-年代评估，这是一个非常便于检查的模型。

参考文献：

返回捐助