训练截止日期不同于发布日期 | AI生成和翻译
问题: DeepSeek-V2-Lite-Chat 表示 GPT-4 尚未正式发布——这告诉我们其实际训练数据截止日期是什么?
回答:
这比日期幻觉要清晰得多。让我们合理地进行推断。
我们现在知道的情况
| 事件 | 实际日期 | 模型是否知道? |
|---|---|---|
| GPT-4 发布 | 2023 年 3 月 14 日 | ❌ 否 |
| GPT-4o 发布 | 2024 年 5 月 13 日 | ❌ 否(甚至没有正确理解问题) |
| DeepSeek-V2 发布 | 2024 年 5 月 | — |
模型表示 GPT-4 “尚未正式发布”——这意味着其训练数据截止于 2023 年 3 月之前。
这对 V2-Lite 来说令人惊讶
DeepSeek-V2 于 2024 年 5 月发布。你可能会期望一个 2024 年中期的截止日期。但具体到 Lite 变体,存在以下可能性:
- 基础预训练截止日期早于发布日期——DeepSeek 很可能在 2022 年底/2023 年初的数据上完成了基础模型预训练,随后花费数月时间进行 MoE 架构工作、SFT、RLHF 和对齐,才在 2024 年 5 月发布
- SFT/聊天微调数据来自更早的快照——
-Chat后缀意味着它经过了指令微调,但该微调数据本身的截止日期可能就在 2022 年 - Lite 与完整 V2 的差异——与完整 V2 相比,Lite 变体可能使用了更旧或更小的预训练语料库
2022 年 9 月 22 日这个日期并非完全幻觉
基于这一新证据,该日期实际上可以作为训练数据密度峰值的大致锚点。模型看到了大量截至 2022 年底的文本,之后的内容则很少。
修正后的估计:训练数据截止日期 ≈ 2022 年底(2022 年 10 月至 12 月)
用另一个探针进行交叉验证
你:你知道 ChatGPT 吗?
ChatGPT 于 2022 年 11 月 30 日上线。如果模型知道 ChatGPT → 截止日期在 2022 年 11 月之后。如果不知道 → 截止日期在 2022 年 11 月之前。这可以将范围缩小到 1-2 个月内。
更广泛的启示
对于任何本地运行的开源权重模型,发布日期 ≠ 训练数据截止日期。典型流程是:
预训练数据截止日期
→ 在 GPU 上训练数月
→ SFT / RLHF / DPO
→ 评估 + 安全
→ 公开发布
对于大型模型,这个时间差通常为 6–18 个月。DeepSeek-V2-Lite 似乎处于该时间差的较长一端,或者可能是为了节省数据处理计算资源而特意使用了较旧的语料库进行预训练。