华为盘古大模型 Ultra 135B 概述 | AI生成和翻译

Home 2026.03

Question: 什么是华为的 Pangu 135B V3 模型?

Answer:

Huawei Pangu 135B V3 (“Pangu Ultra”)

135B V3 是由 Huawei Noah’s Ark Lab 开发的 Pangu AI 计划中的第三版、拥有 135 billion 参数的 dense 架构 large language model。其官方品牌名称为 Pangu Ultra


技术规格

Pangu Ultra 是一个拥有 135 billion parameters128K context window 的 dense LLM,在 8,192 颗 Ascend 910B NPU(Huawei 自研 AI 芯片)上使用 13.2 trillion tokens 训练而成。

该模型包含 94 neural layers,并采用了三阶段训练方案:第一阶段涵盖 12 trillion tokens 的通用知识;第二阶段增加 0.8 trillion tokens 用于 reasoning(数学和代码);第三阶段使用 curriculum learning 处理复杂的 Q&A 对。

为了解决如此深度下的训练不稳定性,Huawei 引入了 Depth-Scaled Sandwich Normalization (DSSN)TinyInit,与 Meta 的 Llama 3 方法相比,这将训练中的 loss spikes 减少了 78%。

它取得了强劲的 benchmark 结果,超越了 LLaMA-3 (405B dense) 和 Qwen2.5 (72B) 等模型,并且尽管是一个规模较小的纯 dense 模型,仍能与 DeepSeek-R1 (671B MoE) 竞争。


“V3” 的重要意义 —— 来自举报丑闻的背景

由于 2025 年中曝光的一场重大内部争议,V3 标签显得尤为重要。根据一名来自 Huawei Noah’s Ark Lab 的举报者透露:


为什么它很重要

135B V3 在内部被视为 Huawei 第一次真正具有竞争力的、诚实的尝试,证明了 Huawei 的 Ascend 芯片确实可以从零开始训练大规模模型,而不依赖于 NVIDIA 硬件 —— 考虑到持续的美国制裁,这是一个重大的地缘政治和技术声明。

Huawei 还应用了 DSSN 和 TinyInit 帮助模型在 Ascend 芯片上实现了超过 52% 的 MFU (Model FLOP Utilization),这是一个显著的硬件效率成果。


摘要表

属性 详情
模型名称 Pangu Ultra (135B V3)
Parameters 135 billion (dense)
Context Window 128K tokens
Training Tokens 13.2 trillion
硬件 8,192 Ascend 910B NPUs
关键技术 DSSN, TinyInit, NPU Fusion Attention
状态 真正从零开始训练(根据举报者消息)

参考文献:


Back Donate