ASIC大幅降低AI推理成本

ASIC大幅降低AI推理成本 | AI生成和翻译

首页 2026.06

问题： Taalas（这家将AI模型硬件固化到硅片中的ASIC公司）能否将推理价格比GPU降低一个数量级？

答案：

对于其瞄准的特定工作负载——对固定模型进行高吞吐量推理——是的，其经济效益确实能支撑降价一个数量级（或更多）。但就GPU整体价格而言，答案是否定的，至少短期内不会。让我分开解释这两点。

从基本原理看成本优势为何真实存在

LLM推理中的主要成本并非FLOPs，而是移动权重。解码过程受内存带宽限制：每生成一个token，都需要将所有激活参数从HBM流式传输到计算单元。H100的芯片成本很大部分来自HBM3堆栈、CoWoS封装以及为提供约3.35TB/s带宽所需的电力与散热。你是在为一台主要工作就是反复搬运相同字节的机器付费。

Taalas的做法是彻底消除这一维度。他们的”硬核AI”架构将模型参数直接嵌入芯片内部，而非在运行时通过软件执行，从而消除了在内存与计算单元之间移动模型数据所带来的延迟和功耗开销。权重以DRAM级别的密度放置在计算单元旁边，完全省去了HBM和复杂封装。算术强度问题随之消失，因为不再需要遍历内存层次结构——网络就是电路本身。

他们声称的数据：HC1在Llama 3.1 8B模型上达到每秒16,000–17,000个token，远超H100，并宣称每瓦性能和每美元性能提升约1000倍。无需HBM和液冷，意味着一个标准风冷机架内可放置十张250W的卡，单箱体即可提供GPU集群级别的吞吐量。即使将1000倍的营销数字在实际中打个折扣到20–50倍，对于该特定模型的美元每百万token成本（$/Mtok）来说，这仍然是变革性的。粗略估算如下：

GPU推理（H100, 8B模型, 高度优化）:
  ~2美元/小时租赁, 批量处理下合计约3-5k tok/s
  → 每Mtok成本约0.11-0.18美元（毛利与利用率损失前）

HC1类ASIC:
  250W卡, 无HBM物料成本, 廉价封装
  每用户14k+ tok/s, 合计吞吐量更高
  → 规模应用下每Mtok成本约0.005-0.02美元

这正是Groq/Cerebras试图通过SRAM实现的目标，但Taalas声称比Cerebras的晶圆级引擎快约10倍，比GPU基线快大约两个数量级——因为晶圆上的SRAM仍需为通用性买单。

局限性，以及为何它不会干掉GPU

显而易见的反对意见——模型每周都在变，而ASIC需要两年——这恰恰是Taalas实际创新的部分。他们构建了一种类似编译器的流片流程，能将模型权重在大约一周内转化为芯片设计，并且仅通过修改顶部金属掩模而非完全重新设计，将权重到硅片的时间缩短到大约两个月。他们与台积电合作，使用仅涉及两层金属层的工艺。这本质上是结构化ASIC技巧（掩模可编程门阵列）应用于神经网络：基础层与模型无关，只有编码权重的布线会变化。这在半导体史上并不新鲜，但此前没人将其用于AI。

然而，结构性限制依然存在：

一个芯片 = 一个模型。 微调、RLHF更新或新架构 → 需要新的掩模版本。两个月在芯片领域很快，但与向GPU集群执行git push相比仍如龟速。每周迭代的前沿实验室无法将其用于旗舰模型。
训练领域未涉及。 Taalas对训练市场毫无贡献，而正是训练市场支撑着NVIDIA的利润率和定价能力。GPU价格由训练需求决定；推理ASIC在底层蚕食份额，并不会对H100/B200的定价产生太大影响。
扩展到大型MoE模型尚未验证。 他们展示了30芯片集群运行DeepSeek R1，达到每秒12,000 TPS/用户，这令人印象深刻。但将671B级别的MoE硬连线到数十个芯片上，并解决跨芯片路由问题，其良率和成本方程与单芯片上的8B模型截然不同。
需求体量风险。 只有当您承诺为某个能在12个月以上保持商业相关性的模型投入一套掩模和晶圆量时，这种单位经济效益才能成立。这适用于”服务数十亿廉价代理调用的Llama级主力模型”，而非前沿模型。

我对您处境的解读

现实结果并非”GPU价格暴跌”，而是市场分化：GPU保留训练+前沿/实验性推理市场；硬连线ASIC（Taalas）和近内存设计则吞食模型稳定、体量巨大的商品化推理市场。在这个尾部市场，token价格将趋近于零——对于您这样每月消耗约10亿token、构建代理的用户来说，这非常有利。如果Taalas级别的芯片能大规模出货，预计未来几年内8B–70B级别的开源模型API定价将再压缩10–50倍，使”向一个问题发起数千个代理调用”成为默认架构。这对推理定价（Groq、Cerebras、Together、便宜的OpenRouter端点）的压力，远大于对NVIDIA GPU平均售价的压力。

值得注意，这些都是基于供应商对测试版产品的宣称——CEO Ljubisa Bajic将HC1描述为供开发者探索亚毫秒级LLM推理的测试版发布——因此，在第三方数据公布前，请将1000倍的数字视为方向性正确，而非字面精确。

参考来源：

返回捐助