Together.ai集群配置指南 | AI生成和翻译

Home 2026.06

问题: Together.ai 的集群配置界面展示了什么,它是如何工作的?

回答:

这是 Together.ai 的 GPU 集群配置界面——其托管式多节点训练基础设施产品。以下是对每个字段的详细说明:


区域

集群的物理位置。影响与数据源之间的延迟、出口成本,有时也影响 GPU 的可用性。Together.ai 提供美国区域和欧盟区域。


共享卷

挂载到集群中所有节点的网络附加存储卷(可能为 NFS 或类似存储)。对于多节点训练至关重要——所有节点需要读取相同的数据集和检查点文件。如果没有共享存储,您将需要手动在节点之间同步数据。


驱动版本

570 (CUDA 12.8) — NVIDIA 内核驱动版本。CUDA 12.8 为当前一代。这很重要,因为:


启用自动扩缩容

根据利用率增加或减少节点数量。对于训练任务,您几乎总是希望选择——您需要固定的拓扑结构用于 NCCL/RDMA 集合通信。自动扩缩容适用于推理服务,而非训练。


最大 GPU 数量

仅在启用自动扩缩容时相关——设置上限。


使用自定义 OIDC

使用您自己的身份提供商(Okta、Azure AD 等)进行集群身份验证。企业功能——除非您所在公司有单点登录要求,否则可忽略。


启用 Traefik

Traefik 是一个反向代理/入口控制器。启用此功能可让您从集群内部公开 HTTP 端点——如果您正在运行推理服务器(vLLM、TGI)或需要外部访问的训练仪表板(wandb agent、TensorBoard),这将非常有用。


GPU 类型表格——核心选择

配置 带宽 节点数 CPU 核心数
8x H100 SXM 3.2 Tb/s Infiniband 1 208
16x H100 SXM 3.2 Tb/s Infiniband 2 416
64x H100 SXM 3.2 Tb/s Infiniband 8 1664

需要理解的关键点:

H100 SXM 对比 PCIe:SXM 形态使用 NVLink 实现节点内 GPU-GPU 带宽(每个 H100 双向约 900 GB/s)。PCIe H100 更便宜,但 NVLink 带宽下降到 PCIe 速度(约 64 GB/s)。对于大型模型训练,SXM 是必须的选择。

3.2 Tb/s Infiniband:这是用于节点间通信的 HDR/NDR Infiniband。在 8 节点 × 8 GPU 配置下,全规约集合通信带宽是瓶颈——3.2 Tb/s 是 NCCL 通过 nccl_p2pnccl_net 用于梯度同步的通道。

每节点 208 个 CPU 核心:大约每个 GPU 对应 26 个核心。足以运行 DataLoader 工作进程而不会因 CPU 瓶颈拖慢 GPU 流水线。


如何为训练考虑集群规模

对于像 GPT-2 760M(您训练过的模型)这样的模型,即使是 1 个节点(8x H100)也绰绰有余——您可以在几分钟内完成训练。

对于严肃的工作:

模型规模 推荐配置
7B(LLaMA 级别) 8x H100(1 节点),bf16 + Flash Attn
70B 16–32x H100,张量并行 + 流水线并行
405B(LLaMA 3.1) 64x H100 或更多,FSDP + 流水线并行
DeepSeek v3 671B MoE 256 块以上 H100(他们使用的配置)

成本概念

Together.ai H100 SXM 的价格大约为 每个 GPU 每小时 2–2.50 美元,取决于承诺用量。因此:

与您的 AMD MI300X 每小时约 2 美元的总成本相比——规模和价格点完全不同。Together.ai 适用于生产训练任务,而非实验。


总结

此界面配置一个裸金属多节点 H100 集群,具有共享存储和 Infiniband 互连。您可以使用它来运行使用 PyTorch FSDP、DeepSpeed 或 Megatron-LM 等框架进行分布式训练,跨 8–64 个 GPU。关键轴心是:您需要多少块 GPU 才能使模型适配内存,并在合理的实际时间内完成训练?


Back Donate