腾讯混元推理引擎概述 | AI生成和翻译

Home 2026.06

问题: 腾讯混元是什么?请介绍该模型系列,并说明其推理引擎在 NVIDIA H20 和 Blackwell (B200) GPU 上的性能优化情况。


答案:腾讯混元 — 概述与推理引擎深度解析


什么是混元?

腾讯开发了混元作为其大型语言模型系列,为旗下产品中的对话式 AI 和内容生成提供支持。它并非单一模型,而是一个完整的技术栈:涵盖大语言模型、图像生成、视频生成、3D、OCR 以及智能体。可以将其视为腾讯对标 OpenAI 和 Google 正在构建的技术体系,但深度集成于微信、QQ 和腾讯云之中。

混元大语言模型覆盖文本到文本、文本到图像、文本到视频以及多模态理解。


模型系列(当前状态,2025 年中)

Hunyuan-Large (Hunyuan-MoE) — 最初的开源旗舰版本。旗舰模型 Hunyuan-Large (Hunyuan-MoE-A52B) 拥有 3890 亿总参数,其中 520 亿参数被激活,是一款领先的开源 Transformer 架构 MoE 模型。

Hunyuan-TurboS — 架构上最具创新性的模型。该模型于 2025 年 2 月 27 日发布,采用 Hybrid-Mamba-Transformer 融合模式,有效降低了传统 Transformer 架构的计算复杂度与 KV-Cache 占用,显著减少了训练和推理成本。

架构细节:TurboS 结合了 57 个 Mamba2 层、7 个 Attention 层和 64 个前馈神经网络层,按“AMF”和“MF”区块模式策略性排列。KV cache 和 FFN 采用 MoE 结构。基于 16T 高质量 token 进行预训练,支持 256K 上下文长度,是业界首个大规模部署的 Mamba 模型。

这一点意义重大:Mamba 层的线性复杂度(O(N) vs O(N²))意味着长上下文推理的计算成本根本性降低。保留了 7 个 Attention 层,用于在 Mamba 递归能力不足时捕获全局上下文。

Hunyuan-T1 — 推理模型(慢思考)。Hunyuan-T1 正式版基于 TurboS 快思维基础模型,腾讯将其描述为全球首个超大规模 Hybrid-Transformer-Mamba MoE 模型。通过大规模后训练,其推理能力得到显著扩展。

Hunyuan-A13B — 高效开源版本。Hunyuan-A13B 模型拥有 800 亿总参数,其中 130 亿参数被激活,支持最大 256K token 的上下文长度。

Hunyuan 2.0 (2025 年 12 月):基于 MoE 架构,总参数 4060 亿,激活参数 320 亿,支持 256K 上下文窗口,在预训练数据和数学、科学、编程等领域的 RL 策略上有所改进。

Chatbot Arena 排名:在 Chatbot Arena 上,Hunyuan TurboS 已跻身全球前八,在中国仅次于 DeepSeek。


推理引擎 — 他们的构建方案

腾讯在 GTC 2025 上介绍了使用 TensorRT-LLM 为混元构建高性能推理引擎的方案。根据 GitHub 和 GTC 资料,关键优化包括:

1. CLA(跨层注意力)实现 KV-Cache 压缩

引入新的 CLA 结构显著降低了 GPU 内存使用,KV-Cache 部分节省达 50%,从而确保高效处理长文本场景。这对大规模 MoE 模型至关重要——在高批处理量下,KV cache 往往是内存瓶颈。

2. FP8 量化

采用 FP8 量化,相比传统的 FP16/BF16 量化,内存使用减少 50%,同时保持精度,吞吐量提升 70%。

3. TRT-LLM 对比 vLLM

通过利用 TRT-LLM 核心的高效算子,TRT-LLM 方案的性能超过 vLLM 30% 以上。TRT-LLM 是他们的生产环境默认方案;他们最初开源了 vLLM 路径。

4. CUDA Graph 优化

从部署配置来看:

use_cuda_graph: true
cuda_graph_padding_enabled: true
cuda_graph_batch_sizes: [1, 2, 4, 8, 16, 32]

这消除了 CPU-GPU 启动开销——对于小批处理量下的延迟至关重要。

5. 训练并行技术栈(AngelPTM / AngelRL)

在训练方面,他们全面集成了所有模型并行技术,包括张量并行(TP)、流水线并行(PP)、专家并行(EP)、上下文并行(CP)以及序列拼接优化,以提升效率。推理框架称为 AngelHCF


H20 对比 B200 — GPU 平台背景

H20 是 NVIDIA 符合中国出口规定的芯片(阉割版 Hopper)。Hunyuan-Large 明确在 H20 上进行了测试——在 H20 上,LoRA 微调需要至少 8 张 GPU。它是目前中国数据中心内主流的推理 GPU。

对于更广泛的 Blackwell B200:NVIDIA Blackwell B200 每百万 token 的成本从发布时的 0.11 美元降至两个月后 GPT-OSS-120B 上的 0.02 美元——仅凭软件优化就实现了 5 倍提升。

在分离式服务(预填充/解码分离)方面,腾讯的大规模部署受益于此:NVIDIA 的分离式服务相比在 DGX B200 系统上使用动态批处理的传统聚合服务,每 GPU 吞吐量提升近 1.5 倍——相比在 DGX H200 系统上使用动态批处理,累计提升超过 5 倍。

Blackwell FP4 支持是下一个前沿。Blackwell 架构支持高级精度模式(FP8、FP4),B200 和 B300 在 TF32、FP16 和 FP8 下的吞吐量相比上一代 H200 提升超过 2 倍。它还配备了一个支持 FP4 的新型 Transformer 引擎。


“Hunyuan 3.0”的定位

注意:根据我的搜索,“Hunyuan 3.0”这一术语未出现在公开文档中——它可能指代 Hunyuan 2.0(2025 年 12 月)作为当前版本,或者是尚未公开的内部版本号。推理引擎的工作主要围绕 TensorRT-LLM + AngelHCF,上述优化技术栈是生产环境基线。


给你的总结

腾讯做出的有趣工程选择:

参考文献:


Back Donate