Qwen3.5-397B 模型技术与成本概述 | AI生成和翻译

Home 2026.04

问题: Qwen3.5-397B-A17B 的训练细节、架构和预计成本是什么?

回答: 该模型于 2026 年 2 月发布,Qwen3.5-397B-A17B 是 Alibaba 的 Qwen 团队推出的旗舰级原生视觉-语言模型。它以大规模参数结合高推理效率的稀疏架构而著称。

1. 模型架构

该模型采用 Hybrid Mixture-of-Experts (MoE) 架构,结合 Gated DeltaNet(一种线性注意力机制),使其比标准 Transformer 更高效地处理极长上下文。

2. 训练细节

虽然 Alibaba 未披露具体数据集,但训练涉及多项先进技术:

3. 硬件与预计成本

该模型针对 NVIDIA GPU-accelerated systems(H100/H200/B200 集群)进行了优化。

参考资料:


Back Donate