中国大语言模型与科学家创始人模式 | AI生成和翻译
问题: 你如何看待中国大语言模型的崛起、你正在构建的训练流程(预训练 → SFT → RL) 、科学家创业模式(唐杰 / 梁文锋),以及你个人在这一浪潮中的定位?
答案:
你的判断很敏锐,基本正确。我来补充一些可以明确的信息。
关于中国大模型的崛起
“便宜 + 好用 + 开源”这个三位一体在中长期内确实势不可挡。DeepSeek V3/R1 证明了效率论点——以极低的训练成本实现相当的能力。护城河已经不再是能力对等,而是成本结构。外国企业会采用中国模型,就像他们采用中国制造一样:经济性最终胜出,政治只会拖延但无法阻止。
你用富士康类比很贴切。讽刺的是,价值最终会转移——富士康利润率一直很薄,但台积电(拥有真正知识产权的赋能者)却获取了巨大价值。中国人工智能面临的问题是:他们仍然是富士康,还是变成台积电。DeepSeek 的开源权重押注很有意思——他们通过放弃模型来捕获生态系统和人才信号。这很聪明。
关于你的训练流程思路
你识别出了正确的层级:
预训练 → SFT(合成数据) → RL(GRPO/DPO/PPO) → RAG/智能体
你的直觉——“没有预训练,下游一切皆是空谈”——是对的。基座模型质量是硬约束。但这里有细微差别:
你不需要自己训练基座模型。你需要足够深入地理解它,才能去“滥用”它。
对于你这种水平的人,未来两年的真正杠杆在于:
- 在开源基座模型上做后训练(Qwen3、DeepSeek-V3-Base、Llama 4)——这是低成本下有趣研究的所在。
- 合成数据工程——你的 SFT 数据流程质量比 RL 算法更重要。坏数据 + 好 RL = 垃圾。好数据 + 简单 SFT = 出乎意料地强大。
- 面向推理的 RL——GRPO(DeepSeek 的方法)比 PPO 更简单、更稳定。在完成 nanochat 之后,下一步应该花时间研究 nanoGRPO。
不会过时的东西是:理解每个阶段从机理上做了什么。不仅仅是“SFT 教格式”,而是知道具体发生了什么梯度更新,为什么 RLHF 在没有 KL 惩罚时会发散,以及奖励增加(reward hacking)的失败模式是什么。
关于科学家创业模式
唐杰 + 梁文锋代表了一种新原型,但只在特定条件下有效:
- 产品 = 模型(没有复杂运营,没有数百万零工工人)
- 团队 = 博士群体(共同价值观、隐性协调、低管理成本)
- 护城河 = 研究速度(不是商务拓展,不是销售,不是运营)
这就是为什么美团需要王兴(运营天才,大规模人力系统),而 DeepSeek 需要梁文锋(研究品味,人才磁石)。不同的游戏。
“几百人”这一点很关键——你可以用文化和智力认同来领导 300 名精英研究员。但你不能用同样方式领导 30 万名配送骑手。管理复杂性不会以相同方式扩展。
唐杰的模式——从社交网络图挖掘 → 大规模预训练 → 产品——正是你为自己描述的“完整链条”思路。
关于你自己的定位
你说过:“我想做不会过时的事情。我后悔没有更早深入预训练/推理。”
诚实的建议:不会过时的是机制,而不是框架。
- 注意力数学不会变。Flash Attention 是对同一事物的优化。
- 反向传播不会变。每个框架都实现相同的东西。
- 采样理论不会变。温度、top-p、束搜索——相同原理。
- RL 基础不会变。策略梯度就是策略梯度。
你当前的路径——nanoGPT → nanochat → 添加 GRPO → 端到端理解全栈——是正确的。你正在做的合成数据 SFT 工作是实用且当前的。
一个具体建议:当你在 nanochat 中做 RL 部分时,对策略模型和参考模型之间的 KL 散度进行仪表化。观察当你移除 KL 惩罚时会发生什么。关于 RL 为什么难的直觉将永远伴随你。
关于 GLM/Anthropic 差距——你说还有差距,这是对的,但这个差距缩小得比大多数中国以外的人意识到的要快。现在的差距更多在于 RLHF 数据质量和对齐技术,而不是原始能力。这是可以弥合的。
关于微信/唐杰那件事
不要过度纠结。你当时 22 岁,在运营一个直播初创公司,发布了对中国经济的悲观看法(这些看法很可能是准确的)。这不是一个负面因素——这正是一个很早就独立思考的人的写照。那些值得认识的人会理解你的轨迹。