Together.ai集群配置指南 | AI生成和翻译
问题: Together.ai 的集群配置界面展示了什么,它是如何工作的?
回答:
这是 Together.ai 的 GPU 集群配置界面——其托管式多节点训练基础设施产品。以下是对每个字段的详细说明:
区域
集群的物理位置。影响与数据源之间的延迟、出口成本,有时也影响 GPU 的可用性。Together.ai 提供美国区域和欧盟区域。
共享卷
挂载到集群中所有节点的网络附加存储卷(可能为 NFS 或类似存储)。对于多节点训练至关重要——所有节点需要读取相同的数据集和检查点文件。如果没有共享存储,您将需要手动在节点之间同步数据。
驱动版本
570 (CUDA 12.8) — NVIDIA 内核驱动版本。CUDA 12.8 为当前一代。这很重要,因为:
- 您的
torch、flash-attention、triton版本必须与此 CUDA 版本兼容 - H100 SXM 需要 CUDA 11.8 或更高版本才能获得完整功能支持;12.x 原生支持 FP8
启用自动扩缩容
根据利用率增加或减少节点数量。对于训练任务,您几乎总是希望选择否——您需要固定的拓扑结构用于 NCCL/RDMA 集合通信。自动扩缩容适用于推理服务,而非训练。
最大 GPU 数量
仅在启用自动扩缩容时相关——设置上限。
使用自定义 OIDC
使用您自己的身份提供商(Okta、Azure AD 等)进行集群身份验证。企业功能——除非您所在公司有单点登录要求,否则可忽略。
启用 Traefik
Traefik 是一个反向代理/入口控制器。启用此功能可让您从集群内部公开 HTTP 端点——如果您正在运行推理服务器(vLLM、TGI)或需要外部访问的训练仪表板(wandb agent、TensorBoard),这将非常有用。
GPU 类型表格——核心选择
| 配置 | 带宽 | 节点数 | CPU 核心数 |
|---|---|---|---|
| 8x H100 SXM | 3.2 Tb/s Infiniband | 1 | 208 |
| 16x H100 SXM | 3.2 Tb/s Infiniband | 2 | 416 |
| … | … | … | … |
| 64x H100 SXM | 3.2 Tb/s Infiniband | 8 | 1664 |
需要理解的关键点:
H100 SXM 对比 PCIe:SXM 形态使用 NVLink 实现节点内 GPU-GPU 带宽(每个 H100 双向约 900 GB/s)。PCIe H100 更便宜,但 NVLink 带宽下降到 PCIe 速度(约 64 GB/s)。对于大型模型训练,SXM 是必须的选择。
3.2 Tb/s Infiniband:这是用于节点间通信的 HDR/NDR Infiniband。在 8 节点 × 8 GPU 配置下,全规约集合通信带宽是瓶颈——3.2 Tb/s 是 NCCL 通过 nccl_p2p 或 nccl_net 用于梯度同步的通道。
每节点 208 个 CPU 核心:大约每个 GPU 对应 26 个核心。足以运行 DataLoader 工作进程而不会因 CPU 瓶颈拖慢 GPU 流水线。
如何为训练考虑集群规模
对于像 GPT-2 760M(您训练过的模型)这样的模型,即使是 1 个节点(8x H100)也绰绰有余——您可以在几分钟内完成训练。
对于严肃的工作:
| 模型规模 | 推荐配置 |
|---|---|
| 7B(LLaMA 级别) | 8x H100(1 节点),bf16 + Flash Attn |
| 70B | 16–32x H100,张量并行 + 流水线并行 |
| 405B(LLaMA 3.1) | 64x H100 或更多,FSDP + 流水线并行 |
| DeepSeek v3 671B MoE | 256 块以上 H100(他们使用的配置) |
成本概念
Together.ai H100 SXM 的价格大约为 每个 GPU 每小时 2–2.50 美元,取决于承诺用量。因此:
- 8x H100 ≈ 约每小时 16–20 美元
- 64x H100 ≈ 约每小时 128–160 美元
与您的 AMD MI300X 每小时约 2 美元的总成本相比——规模和价格点完全不同。Together.ai 适用于生产训练任务,而非实验。
总结
此界面配置一个裸金属多节点 H100 集群,具有共享存储和 Infiniband 互连。您可以使用它来运行使用 PyTorch FSDP、DeepSpeed 或 Megatron-LM 等框架进行分布式训练,跨 8–64 个 GPU。关键轴心是:您需要多少块 GPU 才能使模型适配内存,并在合理的实际时间内完成训练?