Together.ai集群配置指南

Together.ai集群配置指南 | AI生成和翻译

首页 2026.06

问题： Together.ai 的集群配置界面展示了什么，它是如何工作的？

回答：

这是 Together.ai 的 GPU 集群配置界面——其托管式多节点训练基础设施产品。以下是对每个字段的详细说明：

区域

集群的物理位置。影响与数据源之间的延迟、出口成本，有时也影响 GPU 的可用性。Together.ai 提供美国区域和欧盟区域。

共享卷

挂载到集群中所有节点的网络附加存储卷（可能为 NFS 或类似存储）。对于多节点训练至关重要——所有节点需要读取相同的数据集和检查点文件。如果没有共享存储，您将需要手动在节点之间同步数据。

驱动版本

570 (CUDA 12.8) — NVIDIA 内核驱动版本。CUDA 12.8 为当前一代。这很重要，因为：

您的 torch、flash-attention、triton 版本必须与此 CUDA 版本兼容
H100 SXM 需要 CUDA 11.8 或更高版本才能获得完整功能支持；12.x 原生支持 FP8

启用自动扩缩容

根据利用率增加或减少节点数量。对于训练任务，您几乎总是希望选择否——您需要固定的拓扑结构用于 NCCL/RDMA 集合通信。自动扩缩容适用于推理服务，而非训练。

最大 GPU 数量

仅在启用自动扩缩容时相关——设置上限。

使用自定义 OIDC

使用您自己的身份提供商（Okta、Azure AD 等）进行集群身份验证。企业功能——除非您所在公司有单点登录要求，否则可忽略。

启用 Traefik

Traefik 是一个反向代理/入口控制器。启用此功能可让您从集群内部公开 HTTP 端点——如果您正在运行推理服务器（vLLM、TGI）或需要外部访问的训练仪表板（wandb agent、TensorBoard），这将非常有用。

GPU 类型表格——核心选择

配置	带宽	节点数	CPU 核心数
8x H100 SXM	3.2 Tb/s Infiniband	1	208
16x H100 SXM	3.2 Tb/s Infiniband	2	416
…	…	…	…
64x H100 SXM	3.2 Tb/s Infiniband	8	1664

需要理解的关键点：

H100 SXM 对比 PCIe：SXM 形态使用 NVLink 实现节点内 GPU-GPU 带宽（每个 H100 双向约 900 GB/s）。PCIe H100 更便宜，但 NVLink 带宽下降到 PCIe 速度（约 64 GB/s）。对于大型模型训练，SXM 是必须的选择。

3.2 Tb/s Infiniband：这是用于节点间通信的 HDR/NDR Infiniband。在 8 节点 × 8 GPU 配置下，全规约集合通信带宽是瓶颈——3.2 Tb/s 是 NCCL 通过 nccl_p2p 或 nccl_net 用于梯度同步的通道。

每节点 208 个 CPU 核心：大约每个 GPU 对应 26 个核心。足以运行 DataLoader 工作进程而不会因 CPU 瓶颈拖慢 GPU 流水线。

如何为训练考虑集群规模

对于像 GPT-2 760M（您训练过的模型）这样的模型，即使是 1 个节点（8x H100）也绰绰有余——您可以在几分钟内完成训练。

对于严肃的工作：

模型规模	推荐配置
7B（LLaMA 级别）	8x H100（1 节点），bf16 + Flash Attn
70B	16–32x H100，张量并行 + 流水线并行
405B（LLaMA 3.1）	64x H100 或更多，FSDP + 流水线并行
DeepSeek v3 671B MoE	256 块以上 H100（他们使用的配置）

成本概念

Together.ai H100 SXM 的价格大约为 每个 GPU 每小时 2–2.50 美元，取决于承诺用量。因此：

8x H100 ≈ 约每小时 16–20 美元
64x H100 ≈ 约每小时 128–160 美元

与您的 AMD MI300X 每小时约 2 美元的总成本相比——规模和价格点完全不同。Together.ai 适用于生产训练任务，而非实验。

总结

此界面配置一个裸金属多节点 H100 集群，具有共享存储和 Infiniband 互连。您可以使用它来运行使用 PyTorch FSDP、DeepSpeed 或 Megatron-LM 等框架进行分布式训练，跨 8–64 个 GPU。关键轴心是：您需要多少块 GPU 才能使模型适配内存，并在合理的实际时间内完成训练？

返回捐助