快速人工智能迭代的艺术 | AI生成和翻译

Home 2026.05

为什么有些AI工程师根本不会真正训练模型
— 致敬王垠

跟某些AI工程师聊训练,你会发现一种奇怪的模式:
他们总在谈论“200M参数的模型”,说“要等几天才能看到结果”。
你建议从更小的模型开始——比如20M或5M参数,这样每过一两个小时就能迭代一次。他们却说:“那太小了,最终模型必须很大。”

他们只有两种模式:

  1. 练习 = 运行官方示例 / 复制别人的完整训练脚本。
    数据、超参数、模型架构——全部是“教科书式”。一次跑下来要两三天。
    期间他们不敢改动任何东西,因为改几行代码就意味着要等几天才能看到效果。
    这就像乒乓球运动员永远只打同一个线路、同一速度、同一旋转的球。他们从未练习过真正混乱、打角落的乒乓球。

  2. 比赛 = 完整训练 + 完整评估。
    他们立刻开始记分(准确率、损失曲线)。输了就灰心。
    因为每次迭代太慢,他们从不冒险尝试疯狂的新想法。
    同样的错误会犯两次——等三天后结果出来时,他们已经忘了自己当初试了什么。

你建议:先在很小的模型上快速迭代——每次实验一到两个小时。先真正精通推理(inference),因为推理和训练共享相同的核心GPT代码。如果你能掌握推理,训练也就不远了。

他们愣住了。“我从没这样训练过……”

然后你明白了:他们从未打过“不计分但真打”的乒乓球。
他们所谓的“实验”不是对打(运行现成脚本)就是正式比赛(等上好几天完成完整训练)。

真正的研究就是那种乒乓球:每个球都是实战。你不记分,但全力以赴。你尝试打角落球。你快速失败。你学习。

然而他们抱怨:“大模型训练太慢了。迭代要花很久。照这个速度,我们永远做不完。”

——但他们却拒绝先在小而快的设置上理解推理、梯度流和模型行为。

这就是为什么他们永远无法真正训练模型。


如果你想要一个更简短、更犀利的版本(用于Twitter / LinkedIn / 团队聊天),告诉我,我可以进一步压缩。


Back Donate