小步迭代,然后缓慢扩展 | AI生成和翻译
问题: 韩东那 8000 万的甩卖,跟那些新手大模型初创公司烧掉几百万搞失败的 GPU 训练跑数据,是不是一个道理?基本原则不应该是:小规模迭代(100 万只虾/百块 H100),稳定运行几个月,再规模化——快速收缩,而不是一次性全砸进去吗?
回答:
完全正确。你精准抓住了所有资本密集型领域的核心运营原则。没错,模式一模一样:
规模化的错误模式
韩东的失误:
- 建了 3 亿的供应链
- 试图在全面铺开时验证(全埃及运营)
- 一次执行失败 → 甩卖 8000 万库存,而不是暂停诊断
- 在大规模推进前,从未长期运行过”小规模稳定实验”来发现故障模式
大模型初创公司的对应情况:
- 融资 5000 万
- 立即启动 1 万块 H100 训练”我们自研的 700 亿参数模型”
- 第三周遇到数据管道错误 → 浪费 500 万的算力在损坏的运行上
- 资金耗尽前未能交付
- 从未先用 100 块 H100 跑个 70 亿参数的测试来验证训练流程
你描述的正确思维模型正是:
第一阶段(验证):小规模,运行 2-3 个月
├─ 100 万只虾 / 100 块 H100 / 10 人团队
├─ 衡量单位经济性、故障率、质量稳定性
├─ 迭代运营直到稳定
└─ 成本:50 万(可接受的损失)
第二阶段(验证可重复性):300-500 万只虾 / 500 块 H100 / 50 人
├─ 运行 2-3 个月,验证规模化不会打破原有假设
└─ 成本:300-500万(仍在合理损失范围内)
第三阶段(全面部署):8000 万只虾 / 埃及运营 / 500 人
├─ 仅在第一和第二阶段验证通过后才进行
└─ 成本:有证据支撑,合理
为什么初创公司会打破这个规则
-
叙事压力——投资人因为你”有远见”的大手笔而投钱,不是冲着你”小规模测试”来的。融了 3.7 亿后,花 2 个月跑 100 万只虾的测试,看起来像在浪费时间
-
创始人心态——成功偏误。赢过一次后,跳过中间的验证,就觉得自己已经”懂了”。(韩东之前做过 10 亿规模的生意——他觉得自己可以立刻在埃及全面铺开)
-
资金效率叙事——”快点做大反而烧钱少”(这是错的)。一次失败的 8000 万实验 > 三次 300 万的实验,后者能及早发现错误
-
团队经验不足——多数创始人没管过重硬件运营(GPU 集群、供应链、制造)。软件初创公司可以渐进式扩展,是因为他们不得不(可以廉价地快速启动服务器)。做实体运营的创始人往往还不知道这个道理。
你提到的招聘类比
完全正确。同一个原则:
错误做法: 招 500 人 → 建组织架构 → 发现没人知道你实际的工作流程 正确做法: 招 30 人 → 跑 2 个月 → 搞清楚哪里会出问题 → 招 100 人 → 跑 2 个月 → 扩展到 500 人
能活下来的公司都懂这个道理:慢慢扩展,快速收缩。
- 收缩:停掉 8000 万的虾批次,转向 100 万只,重新稳定(成本:100-200 万,不是 8000 万)
- 不收缩:扔掉整个批次,怪供应商,继续发工资,债务螺旋上升
这对你的 AI 工作为什么重要
你在用 GPU 集群训练模型。就用这个原则:
# 第一阶段:在 RTX 4070 上验证
- 训练 1.6 亿参数,10 亿 token,2 周
- 衡量:loss 曲线、推理延迟、显存效率
- 成本:约 200 美元电费
# 第二阶段:在 AMD MI300X 子集上验证
- 训练 10 亿参数,100 亿 token,2 周
- 衡量:是否仍然线性扩展?有无新的故障模式?
- 成本:约 2000 美元
# 第三阶段:完整的 70 亿/7.6 亿参数运行
- 仅当第一和第二阶段干净无问题才进行
韩东没为埃及供应链做第一和第二阶段。这就是错误所在。
更深层的洞见在于: 这就是为什么资金有限的草根创始人往往比资金充裕的做得更好。约束条件迫使你走上正确的节奏。你被逼着在还没做到 8000 万规模时,先在 100 万级别验证。马斯克的方法之所以奏效,是因为他公开迭代(星舰爆炸是可管控的第一和第二阶段失败,不是 8000 万的虾甩卖)。