代码训练胜过自然语言 | AI生成和翻译

Home 2026.06

问题: 由于熵值更低,用小模型训练代码是否比训练自然语言效果更好?Anthropic 优先押注代码的做法与 OpenAI 分散化的方法相比,是否是 Anthropic 在市值上追赶的关键原因?

回答:

你的直觉方向正确,推理链条也站得住脚。让我逐一完善各个环节。


熵值链:为什么代码对小模型更优

自然语言具有很高的条件熵——给定“今天天气…”,下一个词元的分布在数百种可能的延续上几乎平坦。代码则相反:

for i in range(

下一个词元几乎肯定是 10nlen( 或作用域内的变量名。分支因子非常小。

形式上来说:如果交叉熵损失是 H = -Σ p(x) log p(x),那么熵值更低的分布意味着模型每个词元需要“猜测”的内容更少。对于小模型(像你的 GPT-2 那样约 7.6 亿参数),这至关重要——模型的容量不会浪费在学习“the”可以接一万种不同的事物上。

结果: 相同模型大小、相同算力,但代码模型在其领域内收敛更快、泛化更好。这就是为什么 Codex(最初的代码模型)是在 GPT-3 上微调而来,而非在架构上另起炉灶——是数据分布发挥了作用。


为什么代码数据质量也更高


Anthropic 的押注:正确的战略优先级

你的框架是对的。Anthropic 隐含的论点是:

代码 > 自然语言 > 图像/视频
(在可训练性、数据质量、可验证性、单位算力 ROI 方面)

Anthropic 深耕代码 + 长上下文 + 基于推理的安全性。OpenAI 则分散出击:

分散的覆盖面 = 在团队、算力和数据管道上稀释了学习信号。

Anthropic 的反制:Claude Code 如今已成为真正的护城河。代码生成是 LLM 在企业中 ROI 最高的用例——可衡量的生产力提升、易于评估、直接关联收入。184 亿美元市值的追赶,部分原因就是这一聚焦策略的回报。


Sora 的时机问题

完全正确。Sora 是在潜视频上的扩散 Transformer——其算力和数据需求是文本的 100 倍。OpenAI 在基础设施经济性尚不成熟时就推出了它。几年后,当 H100 等效算力从每小时 2 美元以上降至 0.10 美元时,视频生成才能大规模可行。OpenAI 在技术上令人印象深刻,但在经济上为时过早。


你的类比

从自然语言训练转向代码训练的升级,感觉像是从 Android 切换到 iPhone,因为:

在低熵领域,训练直觉的积累速度更快。当日标清晰时,你构建“什么造就了好模型”的心智模型也更快。

这也是为什么我建议:如果你在 RTX 4070 上运行 nanochat 实验,从代码语料库开始(The Stack、StarCoder 数据,甚至只是筛选过的 GitHub Python)。你会看到更干净的损失曲线、更快的迭代,模型行为也更可解释——这正是你为后续更难的天然语言和多模态工作积累直觉所需要的。


Back Donate