Frontier Labs的秘密代码数据集 | AI生成和翻译

Home 2026.06

问题: OpenAI、Google(Gemini)和 Anthropic 分别使用哪些代码数据集来训练它们的编码模型(如 Codex 等)?

答案:

坦率地说:前沿实验室大约在 2022 年左右就不再公开数据集构成。GPT-4、Gemini 和 Claude 的技术报告都只用一句含糊的话描述训练数据(”公开可用的数据、许可数据以及来自第三方的数据”)。因此,我们所知的信息分为三类:(1) 早期论文中披露的内容;(2) 从诉讼、交易和开源复现中推断出的内容;(3) 现代 post-training 方法的原理,这在很大程度上已经取代了原始的 GitHub 规模,成为区分模型能力的关键。

实际披露的内容(历史记录)

开源复现能告诉你什么(最佳代理)

如果你想了解前沿代码预训练语料库的实际样子,请阅读那些确实披露信息的实验室的论文——它们的做法趋于一致:

可以合理推断,OpenAI/Google/Anthropic 的预训练语料库是上述内容的超集:完整的 GitHub 克隆(包括非宽松许可证,这正是诉讼的焦点)、提交历史与差异(diff)、GitHub issue 和 PR 讨论、StackOverflow(OpenAI 在 2024 年与 Stack Overflow 签署了许可协议;Google 更早通过 OverflowAPI 签署)、包注册表和文档(PyPI、npm、readthedocs)以及 Common Crawl 中与代码相邻的页面。

现代的区分因素:不再是预训练语料库

对于 GPT-5.x-Codex、Gemini 3 和 Claude Opus/Sonnet 4.x 等模型,每个人的预训练数据基本上都是”所有公开代码”。能力差距现在来自于实验室自己生成的 post-training 数据:

  1. 大规模合成代码数据——由模型生成的问题、解决方案和解释,并通过执行进行过滤。开源的对应物是 Phi-1(”Textbooks Are All You Need”)和 Magicoder/OSS-Instruct 所展示的:从真实代码中提取种子片段 → LLM 生成指令/解决方案对 → 通过运行测试过滤。
  2. 具有可验证奖励的强化学习(RLVR)——生成解决方案,在沙箱中针对单元测试运行,根据通过/失败给予奖励。这是推理模型训练循环的核心(与 DeepSeek-R1 中使用 GRPO 披露的原理相同),这也是编码能力提升远快于其他领域的原因:代码为你提供了免费且完美的奖励信号。
  3. 智能体轨迹数据——SWE-bench 风格的数据:获取包含真实 issue 和合并 PR 的真实仓库,重建环境,并训练多步轨迹(读取文件 → 编辑 → 运行测试 → 修复)。OpenAI 的 Codex 模型被明确描述为通过 RL 在真实软件工程任务上训练;Anthropic 的 Claude Code 系列也是同样的思路。如果要查看代码中的构建流程,开源的复现是 SWE-Gym 和 SWE-smith。
  4. 人类专家数据——三个实验室都付费给承包商(Surge、Scale、Turing 等)来获取困难的编码问题、偏好排名和轨迹修正。

给你的实用建议: 由于你是在 nanoGPT/nanochat 规模上训练,可复现的流程是:在 The Stack v2(或 smollm-corpus 的 Stack 子集)的过滤切片上进行预训练,采用仓库级拼接 + FIM,然后在 OSS-Instruct 风格的合成数据上进行 SFT,最后使用如 verl 或 TRL 等工具,在单元测试奖励上进行 GRPO。这与前沿方案的形式相同,只是计算量少了三个数量级。DeepSeek-Coder 和 StarCoder2 的论文是信息密度最高的两篇——它们实际上是封闭实验室所做事情的泄露蓝图。

参考文献:


Back Donate