Talkie:1930年的复古语言模型 | AI生成和翻译
问题:请介绍 talkie (https://talkie-lm.com/introducing-talkie)。
回答:
talkie 是一个 13B 参数的“复古”语言模型,基于 260B 个 tokens 的 1931 年前英文文本训练而成,于 2026 年 4 月由 Nick Levine、David Duvenaud 和 Alec Radford 发布。其核心思想(由 Owain Evans 提出)是:仅使用历史文本训练语言模型,使其知识截止日期严格限定在 1930 年 12 月 31 日——成为一个模拟的过往对话伙伴,更有趣的是,它为研究语言模型提供了一个纯净的科学工具。
它为何不仅仅是玩具,而是重要的研究:
-
无污染泛化测试。 现代基准测试深受训练集泄露之害。一个预-1931 模型对数字计算机零接触,因此你可以提出这样的问题:它能纯粹通过上下文学习 Python 吗?在 HumanEval 测试中(100 个样本并附带 few-shot 示例),复古模型的表现远逊于基于网络训练的架构双胞胎,但随着规模扩大而稳步提升——成功的方案通常是将上下文示例进行单行修改或小幅编辑,例如,通过将
+替换为-来反转旋转密码。这种单字符编辑暗示模型对逆函数有一定理解,尽管其预训练数据中从未出现代码。 -
预测性评估。 他们通过计算模型对约 5,000 条《纽约时报》历史事件描述的每字节惊喜度(bits-per-byte surprisal)进行评分;惊喜度在 1930 年截止点后上升,在 1950-60 年代达到峰值,然后趋于平稳——这是一种量化衡量语言模型能在多大程度上“预见”其训练数据之外信息的方法。
-
数据多样性科学。 每一个现代模型都源自网络(直接或通过蒸馏)。一个脱离网络的模型让你能够探究:“语言模型行为”在多大程度上源于语言本身,又在多大程度上源于网络这一特定数据集。
值得了解的工程细节:
- 现代双胞胎基线: 采用相同架构,在 FineWeb 数据集上以相等 FLOPs 训练。talkie 在知识评估中表现不佳;过滤掉不合时宜的问题可将差距缩小一半,而核心语言理解和计算能力则相差无几。
- 时间泄露是难题。 他们使用 n-gram 时代错误分类器来过滤语料库,但这并不完美——模型仍然知道罗斯福新政以及一些二战及战后的事实(他们的 7B 模型知道得更多)。
- OCR 是数据瓶颈。 所有 1931 年前的文本都来自扫描件。传统 OCR 转录仅能达到人工转录学习效率的 30%;通过正则表达式清洗可恢复至 70%。现代 VLM OCR 更准确,但会将现代事实幻觉纳入语料库——因此他们正在构建一个专用的复古 OCR 系统。
- 无现代聊天数据的后训练: 从结构规整的历史文本(礼仪手册、食谱、百科全书)中挖掘指令对进行 SFT → 以 Claude Sonnet 4.6 为裁判进行在线 DPO(指令遵循评分从 2.0 提升至 3.4,按 5 分制)→ 对通过拒绝采样获得的 Claude-talkie 多轮对话进行最终 SFT。他们指出,RLAIF 不可避免地会注入时代错误(7B 模型开始用列表体说话),并希望使用“复古模型作为裁判”来实现完全自举的流程。
路线图: 今年夏天推出 GPT-3 级别的复古模型;将语料库扩展至超过 1T tokens 的历史文本,他们估计这足以训练出一个 GPT-3.5/ChatGPT 级别的模型。选择 1930 年作为截止点是因为这是美国公共领域的边界。部分资金和计算资源由 Coefficient Giving 和 Anthropic 提供。
具体到你的兴趣:这本质上是将 nanoGPT 式的方法论应用于一个受控数据实验,基础版和指令调优版检查点均已上传至 Hugging Face(talkie-lm/talkie-1930-13b-base, -it),相关代码在 GitHub 上——如果你想研究后训练在没有网络先验知识的情况下的表现,或复现惊喜度-年代评估,这是一个非常便于检查的模型。
参考文献: