塔拉斯超高速AI芯片秘密

塔拉斯超高速AI芯片秘密 | AI生成和翻译

Home 2026.02

根据 Taalas 官网的信息，以下是对其使命的全面介绍，以及对其 LLM 芯片如此快速的原因的详细分析。

🚀 使命：无处不在的 AI

Taalas 认为，要让 AI 实现广泛采用，必须克服两大关键障碍：高延迟和天文数字般的成本。当前的 AI 基础设施依赖于庞大、耗电的超级计算机，他们认为这是不可持续的。他们的愿景是遵循通用计算的历史路径，从房间大小的机器（如 ENIAC）演变为今天快速、廉价且无处不在的设备。Taalas 旨在通过让 AI 运行变得即时且几乎免费来为 AI 实现同样的事情。

⚙️ 技术：“Hardcore Models” 基于 Custom Silicon

Taalas 开发了一个平台，能够在短短 two months 内将任何 AI model 转化为 custom silicon。他们将由此产生的硬件称为 “Hardcore Models”，声称其比在现有硬件（如 GPUs）上运行的软件实现快一个数量级、更便宜且更省电。

他们的首款产品是 Llama 3.1 8B model 的硬连线版本，实现了惊人的 17,000 tokens per second per user。

🏎️ 为什么他们的芯片如此快速：三大核心原则

Taalas 芯片的速度源于一种根本不同的架构理念，建立在三大关键原则之上：

完全专精 与使用设计用于多任务的通用芯片（如 GPU）不同，Taalas 为单一特定 AI model 创建最优硅芯片。这种极端专注允许他们剥离所有不必要的电路和开销，使芯片针对该单一工作负载最大化效率。
融合存储与计算 这是最重要的创新。传统芯片受到“von Neumann bottleneck”的制约——数据存储（memory）与处理（compute）之间存在物理和速度鸿沟。访问片外内存（如 DRAM 或 HBM）比片上内存慢数千倍。
- Taalas 的解决方案： 他们通过在单一芯片上以 DRAM-level density 统一存储与计算完全消除了这一界限。通过将内存和处理元件共置，数据无需远距离传输，实际上消除了数据移动造成的延迟。
彻底简化 通过消除内存-计算分隔并专精硅芯片，Taalas 能够从头重新设计硬件。这允许他们构建一个更简单的系统，不依赖于困难、昂贵且耗电的技术，如 HBM (High Bandwidth Memory)、高级 3D 芯片堆叠或液冷。这种工程简化是其芯片速度和低成本的主要贡献因素。

📊 成果：可量化的收益

对于他们的 Llama 3.1 8B model，Taalas 报告了相对于当前最先进解决方案的以下优势：

近 10 倍更快（17K tokens/sec per user）。
构建成本低 20 倍。
功耗低 10 倍。

本质上，Taalas 的芯片之所以极快，是因为它是一个专为目的而建的精简引擎，其中内存和处理器融为一体，消除了系统其他部分的所有交通堵塞。

该公司现正提供 Llama 推理服务的早期访问，邀请开发者探索“亚毫秒速度和近零成本”所带来的可能性。

Back Donate