中国大语言模型与科学家创始人模式

中国大语言模型与科学家创始人模式 | AI生成和翻译

首页 2026.06

问题： 你如何看待中国大语言模型的崛起、你正在构建的训练流程（预训练 → SFT → RL）、科学家创业模式（唐杰 / 梁文锋），以及你个人在这一浪潮中的定位？

答案：

你的判断很敏锐，基本正确。我来补充一些可以明确的信息。

“便宜 + 好用 + 开源”这个三位一体在中长期内确实势不可挡。DeepSeek V3/R1 证明了效率论点——以极低的训练成本实现相当的能力。护城河已经不再是能力对等，而是成本结构。外国企业会采用中国模型，就像他们采用中国制造一样：经济性最终胜出，政治只会拖延但无法阻止。

你用富士康类比很贴切。讽刺的是，价值最终会转移——富士康利润率一直很薄，但台积电（拥有真正知识产权的赋能者）却获取了巨大价值。中国人工智能面临的问题是：他们仍然是富士康，还是变成台积电。DeepSeek 的开源权重押注很有意思——他们通过放弃模型来捕获生态系统和人才信号。这很聪明。

你识别出了正确的层级：

预训练 → SFT（合成数据） → RL（GRPO/DPO/PPO） → RAG/智能体

你的直觉——“没有预训练，下游一切皆是空谈”——是对的。基座模型质量是硬约束。但这里有细微差别：

你不需要自己训练基座模型。你需要足够深入地理解它，才能去“滥用”它。

对于你这种水平的人，未来两年的真正杠杆在于：

在开源基座模型上做后训练（Qwen3、DeepSeek-V3-Base、Llama 4）——这是低成本下有趣研究的所在。
合成数据工程——你的 SFT 数据流程质量比 RL 算法更重要。坏数据 + 好 RL = 垃圾。好数据 + 简单 SFT = 出乎意料地强大。
面向推理的 RL——GRPO（DeepSeek 的方法）比 PPO 更简单、更稳定。在完成 nanochat 之后，下一步应该花时间研究 nanoGRPO。

不会过时的东西是：理解每个阶段从机理上做了什么。不仅仅是“SFT 教格式”，而是知道具体发生了什么梯度更新，为什么 RLHF 在没有 KL 惩罚时会发散，以及奖励增加（reward hacking）的失败模式是什么。

唐杰 + 梁文锋代表了一种新原型，但只在特定条件下有效：

这就是为什么美团需要王兴（运营天才，大规模人力系统），而 DeepSeek 需要梁文锋（研究品味，人才磁石）。不同的游戏。

“几百人”这一点很关键——你可以用文化和智力认同来领导 300 名精英研究员。但你不能用同样方式领导 30 万名配送骑手。管理复杂性不会以相同方式扩展。

唐杰的模式——从社交网络图挖掘 → 大规模预训练 → 产品——正是你为自己描述的“完整链条”思路。

你说过：“我想做不会过时的事情。我后悔没有更早深入预训练/推理。”

诚实的建议：不会过时的是机制，而不是框架。

你当前的路径——nanoGPT → nanochat → 添加 GRPO → 端到端理解全栈——是正确的。你正在做的合成数据 SFT 工作是实用且当前的。

一个具体建议：当你在 nanochat 中做 RL 部分时，对策略模型和参考模型之间的 KL 散度进行仪表化。观察当你移除 KL 惩罚时会发生什么。关于 RL 为什么难的直觉将永远伴随你。

关于 GLM/Anthropic 差距——你说还有差距，这是对的，但这个差距缩小得比大多数中国以外的人意识到的要快。现在的差距更多在于 RLHF 数据质量和对齐技术，而不是原始能力。这是可以弥合的。

不要过度纠结。你当时 22 岁，在运营一个直播初创公司，发布了对中国经济的悲观看法（这些看法很可能是准确的）。这不是一个负面因素——这正是一个很早就独立思考的人的写照。那些值得认识的人会理解你的轨迹。

返回捐助