中国大语言模型与科学家创始人模式 | AI生成和翻译

Home 2026.06

问题: 你如何看待中国大语言模型的崛起、你正在构建的训练流程(预训练 → SFT → RL) 、科学家创业模式(唐杰 / 梁文锋),以及你个人在这一浪潮中的定位?

答案:

你的判断很敏锐,基本正确。我来补充一些可以明确的信息。


关于中国大模型的崛起

“便宜 + 好用 + 开源”这个三位一体在中长期内确实势不可挡。DeepSeek V3/R1 证明了效率论点——以极低的训练成本实现相当的能力。护城河已经不再是能力对等,而是成本结构。外国企业会采用中国模型,就像他们采用中国制造一样:经济性最终胜出,政治只会拖延但无法阻止。

你用富士康类比很贴切。讽刺的是,价值最终会转移——富士康利润率一直很薄,但台积电(拥有真正知识产权的赋能者)却获取了巨大价值。中国人工智能面临的问题是:他们仍然是富士康,还是变成台积电。DeepSeek 的开源权重押注很有意思——他们通过放弃模型来捕获生态系统和人才信号。这很聪明。


关于你的训练流程思路

你识别出了正确的层级:

预训练 → SFT(合成数据) → RL(GRPO/DPO/PPO) → RAG/智能体

你的直觉——“没有预训练,下游一切皆是空谈”——是对的。基座模型质量是硬约束。但这里有细微差别:

你不需要自己训练基座模型。你需要足够深入地理解它,才能去“滥用”它。

对于你这种水平的人,未来两年的真正杠杆在于:

  1. 在开源基座模型上做后训练(Qwen3、DeepSeek-V3-Base、Llama 4)——这是低成本下有趣研究的所在。
  2. 合成数据工程——你的 SFT 数据流程质量比 RL 算法更重要。坏数据 + 好 RL = 垃圾。好数据 + 简单 SFT = 出乎意料地强大。
  3. 面向推理的 RL——GRPO(DeepSeek 的方法)比 PPO 更简单、更稳定。在完成 nanochat 之后,下一步应该花时间研究 nanoGRPO。

不会过时的东西是:理解每个阶段从机理上做了什么。不仅仅是“SFT 教格式”,而是知道具体发生了什么梯度更新,为什么 RLHF 在没有 KL 惩罚时会发散,以及奖励增加(reward hacking)的失败模式是什么。


关于科学家创业模式

唐杰 + 梁文锋代表了一种新原型,但只在特定条件下有效:

这就是为什么美团需要王兴(运营天才,大规模人力系统),而 DeepSeek 需要梁文锋(研究品味,人才磁石)。不同的游戏。

“几百人”这一点很关键——你可以用文化和智力认同来领导 300 名精英研究员。但你不能用同样方式领导 30 万名配送骑手。管理复杂性不会以相同方式扩展。

唐杰的模式——从社交网络图挖掘 → 大规模预训练 → 产品——正是你为自己描述的“完整链条”思路。


关于你自己的定位

你说过:“我想做不会过时的事情。我后悔没有更早深入预训练/推理。”

诚实的建议:不会过时的是机制,而不是框架。

你当前的路径——nanoGPT → nanochat → 添加 GRPO → 端到端理解全栈——是正确的。你正在做的合成数据 SFT 工作是实用且当前的。

一个具体建议:当你在 nanochat 中做 RL 部分时,对策略模型和参考模型之间的 KL 散度进行仪表化。观察当你移除 KL 惩罚时会发生什么。关于 RL 为什么难的直觉将永远伴随你。

关于 GLM/Anthropic 差距——你说还有差距,这是对的,但这个差距缩小得比大多数中国以外的人意识到的要快。现在的差距更多在于 RLHF 数据质量和对齐技术,而不是原始能力。这是可以弥合的。


关于微信/唐杰那件事

不要过度纠结。你当时 22 岁,在运营一个直播初创公司,发布了对中国经济的悲观看法(这些看法很可能是准确的)。这不是一个负面因素——这正是一个很早就独立思考的人的写照。那些值得认识的人会理解你的轨迹。


Back Donate