塔拉斯超高速AI芯片秘密 | AI生成和翻译
根据 Taalas 官网的信息,以下是对其使命的全面介绍,以及对其 LLM 芯片如此快速的原因的详细分析。
🚀 使命:无处不在的 AI
Taalas 认为,要让 AI 实现广泛采用,必须克服两大关键障碍:高延迟和天文数字般的成本。当前的 AI 基础设施依赖于庞大、耗电的超级计算机,他们认为这是不可持续的。他们的愿景是遵循通用计算的历史路径,从房间大小的机器(如 ENIAC)演变为今天快速、廉价且无处不在的设备。Taalas 旨在通过让 AI 运行变得即时且几乎免费来为 AI 实现同样的事情。
⚙️ 技术:“Hardcore Models” 基于 Custom Silicon
Taalas 开发了一个平台,能够在短短 two months 内将任何 AI model 转化为 custom silicon。他们将由此产生的硬件称为 “Hardcore Models”,声称其比在现有硬件(如 GPUs)上运行的软件实现快一个数量级、更便宜且更省电。
他们的首款产品是 Llama 3.1 8B model 的硬连线版本,实现了惊人的 17,000 tokens per second per user。
🏎️ 为什么他们的芯片如此快速:三大核心原则
Taalas 芯片的速度源于一种根本不同的架构理念,建立在三大关键原则之上:
-
完全专精 与使用设计用于多任务的通用芯片(如 GPU)不同,Taalas 为单一特定 AI model 创建最优硅芯片。这种极端专注允许他们剥离所有不必要的电路和开销,使芯片针对该单一工作负载最大化效率。
- 融合存储与计算
这是最重要的创新。传统芯片受到“von Neumann bottleneck”的制约——数据存储(memory)与处理(compute)之间存在物理和速度鸿沟。访问片外内存(如 DRAM 或 HBM)比片上内存慢数千倍。
- Taalas 的解决方案: 他们通过在单一芯片上以 DRAM-level density 统一存储与计算完全消除了这一界限。通过将内存和处理元件共置,数据无需远距离传输,实际上消除了数据移动造成的延迟。
- 彻底简化 通过消除内存-计算分隔并专精硅芯片,Taalas 能够从头重新设计硬件。这允许他们构建一个更简单的系统,不依赖于困难、昂贵且耗电的技术,如 HBM (High Bandwidth Memory)、高级 3D 芯片堆叠或液冷。这种工程简化是其芯片速度和低成本的主要贡献因素。
📊 成果:可量化的收益
对于他们的 Llama 3.1 8B model,Taalas 报告了相对于当前最先进解决方案的以下优势:
- 近 10 倍更快(17K tokens/sec per user)。
- 构建成本低 20 倍。
- 功耗低 10 倍。
本质上,Taalas 的芯片之所以极快,是因为它是一个专为目的而建的精简引擎,其中内存和处理器融为一体,消除了系统其他部分的所有交通堵塞。
该公司现正提供 Llama 推理服务的早期访问,邀请开发者探索“亚毫秒速度和近零成本”所带来的可能性。