小步迭代，然后缓慢扩展

小步迭代，然后缓慢扩展 | AI生成和翻译

首页 2026.06

问题： 韩东那 8000 万的甩卖，跟那些新手大模型初创公司烧掉几百万搞失败的 GPU 训练跑数据，是不是一个道理？基本原则不应该是：小规模迭代（100 万只虾/百块 H100），稳定运行几个月，再规模化——快速收缩，而不是一次性全砸进去吗？

回答：

完全正确。你精准抓住了所有资本密集型领域的核心运营原则。没错，模式一模一样：

规模化的错误模式

韩东的失误：

建了 3 亿的供应链
试图在全面铺开时验证（全埃及运营）
一次执行失败 → 甩卖 8000 万库存，而不是暂停诊断
在大规模推进前，从未长期运行过”小规模稳定实验”来发现故障模式

大模型初创公司的对应情况：

融资 5000 万
立即启动 1 万块 H100 训练”我们自研的 700 亿参数模型”
第三周遇到数据管道错误 → 浪费 500 万的算力在损坏的运行上
资金耗尽前未能交付
从未先用 100 块 H100 跑个 70 亿参数的测试来验证训练流程

你描述的正确思维模型正是：

第一阶段（验证）：小规模，运行 2-3 个月
├─ 100 万只虾 / 100 块 H100 / 10 人团队
├─ 衡量单位经济性、故障率、质量稳定性
├─ 迭代运营直到稳定
└─ 成本：50 万（可接受的损失）

第二阶段（验证可重复性）：300-500 万只虾 / 500 块 H100 / 50 人
├─ 运行 2-3 个月，验证规模化不会打破原有假设
└─ 成本：300-500万（仍在合理损失范围内）

第三阶段（全面部署）：8000 万只虾 / 埃及运营 / 500 人
├─ 仅在第一和第二阶段验证通过后才进行
└─ 成本：有证据支撑，合理

为什么初创公司会打破这个规则

叙事压力——投资人因为你”有远见”的大手笔而投钱，不是冲着你”小规模测试”来的。融了 3.7 亿后，花 2 个月跑 100 万只虾的测试，看起来像在浪费时间
创始人心态——成功偏误。赢过一次后，跳过中间的验证，就觉得自己已经”懂了”。（韩东之前做过 10 亿规模的生意——他觉得自己可以立刻在埃及全面铺开）
资金效率叙事——”快点做大反而烧钱少”（这是错的）。一次失败的 8000 万实验 > 三次 300 万的实验，后者能及早发现错误
团队经验不足——多数创始人没管过重硬件运营（GPU 集群、供应链、制造）。软件初创公司可以渐进式扩展，是因为他们不得不（可以廉价地快速启动服务器）。做实体运营的创始人往往还不知道这个道理。

你提到的招聘类比

完全正确。同一个原则：

错误做法： 招 500 人 → 建组织架构 → 发现没人知道你实际的工作流程 正确做法： 招 30 人 → 跑 2 个月 → 搞清楚哪里会出问题 → 招 100 人 → 跑 2 个月 → 扩展到 500 人

能活下来的公司都懂这个道理：慢慢扩展，快速收缩。

收缩：停掉 8000 万的虾批次，转向 100 万只，重新稳定（成本：100-200 万，不是 8000 万）
不收缩：扔掉整个批次，怪供应商，继续发工资，债务螺旋上升

这对你的 AI 工作为什么重要

你在用 GPU 集群训练模型。就用这个原则：

# 第一阶段：在 RTX 4070 上验证
- 训练 1.6 亿参数，10 亿 token，2 周
- 衡量：loss 曲线、推理延迟、显存效率
- 成本：约 200 美元电费

# 第二阶段：在 AMD MI300X 子集上验证
- 训练 10 亿参数，100 亿 token，2 周
- 衡量：是否仍然线性扩展？有无新的故障模式？
- 成本：约 2000 美元

# 第三阶段：完整的 70 亿/7.6 亿参数运行
- 仅当第一和第二阶段干净无问题才进行

韩东没为埃及供应链做第一和第二阶段。这就是错误所在。

更深层的洞见在于： 这就是为什么资金有限的草根创始人往往比资金充裕的做得更好。约束条件迫使你走上正确的节奏。你被逼着在还没做到 8000 万规模时，先在 100 万级别验证。马斯克的方法之所以奏效，是因为他公开迭代（星舰爆炸是可管控的第一和第二阶段失败，不是 8000 万的虾甩卖）。

返回捐助