释放大规模AI计算潜力 | AI生成和翻译

Home 2026.05

问题: 用 MI300X x8(8 × 192GB = 总计 1.5TB 显存)能做什么?可以训练/推理哪些模型?Whisper 转录速度有多快?当算力变得如此便宜和充裕时,会发生什么?

回答:

这正是需要构建的正确思维模型。让我系统地梳理一遍。


MI300X x8 — 原始数据

资源 数值
GPU 8× AMD MI300X
显存 8 × 192GB = 总计 1.5TB
内存带宽 约 9.6 TB/s 聚合
BF16 TFLOPS 约 3,200 TFLOPS 聚合
成本 $15.92/小时(约 100 人民币/小时)

1.5TB 显存能容纳哪些模型?

推理(FP16/BF16)

模型 所需显存 能否容纳?
Llama 3 8B 约 16GB ✅ 轻松
Llama 3 70B 约 140GB ✅ 单卡
Llama 3 405B 约 810GB ✅ 跨 5 卡
DeepSeek V3 (671B) 约 1.3TB ✅ 能容纳!
DeepSeek R1 (671B) 约 1.3TB ✅ 能容纳!
GPT-4 规模(约 1.8T 估计) 约 3.6TB ❌ 需要更多
Llama 3 405B @ INT4 约 200GB ✅ 2 卡

DeepSeek R1 全精度,完全在显存内,无需卸载 —— 这是关键突破。在 H100 集群上,人们需要将其分片到 16 张以上的 GPU。在这里它还有富余。

训练

模型参数量(B)× 16 字节(优化器状态、fp32 副本、梯度)
= 全量微调所需粗略显存
模型 全量微调 LoRA
Llama 3 8B 约 128GB 约 20GB
Llama 3 70B 约 1.1TB 约 150GB
Llama 3 405B 约 6.5TB 约 900GB
GPT-2 (1.5B) 约 24GB 约 5GB

所以用 1.5TB 你可以全量微调 Llama 70B —— 无需 LoRA 妥协。这确实是稀有的能力。


Whisper 转录速度

Whisper large-v3 在单张 A100 80GB 上约达到 200 倍实时速度。 MI300X 的内存带宽约为 A100 的 2 倍。

粗略估计:

这意味着:1 小时音频 → 转录约需 1–2 秒

一个 10,000 小时的播客存档 → 约 3–5 小时完成,成本约 $50。


用 100 人民币/小时能做什么?

1 小时内($15.92)

10 小时内($160,约 1000 人民币)

100 小时内($1,600)


思想实验:每个人都拥有 8× MI300X

这是最有趣的问题。让我像 Karpathy 那样思考一遍。

阶段一:推理民主化

目前,GPT-4 级别的推理受限于 API 成本和速率限制。如果每个人都拥有 1.5TB 显存:

阶段二:个性化模型训练

阶段三:资源充裕击垮某些市场

当前瓶颈:算力稀缺 → API 定价 → 壁垒

如果算力充裕:
- 翻译行业:消失(本地运行 NLLB-200,免费)
- 基础编程助手:商品化
- 语音转录:免费、即时
- 药物发现:每个实验室持续运行蛋白质折叠
- 科学文献:每个研究者都有一个涵盖所有论文的个人 RAG

阶段四:Karpathy 的愿景

当每个人都拥有 H200×8 或 MI300X×8 时:

“模型不是产品。数据和反馈循环才是产品。”

约束从算力转移到数据质量评估。谁拥有最好的:

……谁就赢。不是谁拥有最多的 GPU。


你的实验应该实际测试什么

既然你获得了试用权限,这里有一个具体计划:

# 1. 基准测试:对于你的工作负载,ROCm 比 CUDA 快多少?
python -c "import torch; print(torch.version.hip)"  # ROCm 版本

# 2. 运行 DeepSeek R1 671B —— 这是你原本完全无法在本地做的事情
pip install vllm
vllm serve deepseek-ai/DeepSeek-R1 --tensor-parallel-size 8

# 3. 大规模基准测试 Whisper
pip install faster-whisper
# 批量处理,测量 x-realtime 因子

# 4. 尝试 Llama 8B 的全量微调 —— 不是 LoRA,是全权重
torchrun --nproc_per_node=8 train.py \
  --model meta-llama/Llama-3-8B \
  --full_finetune True

# 5. 从头训练一些东西 —— 你的 GPT-2 工作流,但规模更大
# 在 H200 上你训练了 GPT-2 1.5B。这里尝试 3B–7B 范围。

需要牢记的思维模型

这个实验会给你带来可叠加的直觉

“我知道 1.5TB 显存是什么感觉。我知道天花板在哪里。现在我可以基于数据推理大规模下什么是可能的,而不是猜测。”

这正是 Karpathy 谈论 GPU 直觉的方式 —— 你需要实际运行实验才能校准信念。大多数人只是理论推演。而你将拥有数据。

按照目前的成本曲线(GPU 算力成本大约每 2–3 年减半),每个人都拥有 MI300X×8 的世界可能还需要 10–15 年。但是思维模型 —— 从那个未来倒推到当下 —— 在完成这个实验后,你现在就能拥有。


Back Donate