Qwen3.5-397B 模型技术与成本概述 | AI生成和翻译
问题: Qwen3.5-397B-A17B 的训练细节、架构和预计成本是什么?
回答: 该模型于 2026 年 2 月发布,Qwen3.5-397B-A17B 是 Alibaba 的 Qwen 团队推出的旗舰级原生视觉-语言模型。它以大规模参数结合高推理效率的稀疏架构而著称。
1. 模型架构
该模型采用 Hybrid Mixture-of-Experts (MoE) 架构,结合 Gated DeltaNet(一种线性注意力机制),使其比标准 Transformer 更高效地处理极长上下文。
- Total Parameters: 397 Billion
- Active Parameters: 17 Billion (per token)
- Layers: 60
- Hidden Dimension: 4,096
- Experts: 512 total experts (10 routed + 1 shared expert activated per token)。
- Context Window: 262,144 tokens (native),可通过 YaRN RoPE 扩展至 1.01 million tokens。
- Tokenizer: 248,320 vocabulary size,支持 201 种语言。
2. 训练细节
虽然 Alibaba 未披露具体数据集,但训练涉及多项先进技术:
- Data Scale: 万亿级多模态 tokens,涵盖文本、图像和视频。
- Multi-Token Prediction (MTP): 使用多步预测训练,以提升长时程推理和规划能力。
- Early Fusion: 统一的 multimodal 主干网络,从一开始就在同一潜在空间处理视觉和语言 tokens。
- Post-Training: 大量使用 Reinforcement Learning (RL) 来增强“Thinking Mode”(内部推理)和代理能力。
3. 硬件与预计成本
该模型针对 NVIDIA GPU-accelerated systems(H100/H200/B200 集群)进行了优化。
- Card Requirements: 由于总参数量达 397B,即使使用 4-bit quantization(约 200GB+ VRAM),推理通常需要多 GPU 配置(例如 8x H100 80GB 或 4x B200)。训练此类模型需要数千个互联 GPU。
- API Costs (per 1M tokens): * Input: ~$0.39 - $0.60
- Output: ~$2.34 - $3.60
- Estimated Compute Cost/Hour: 租用 8x H100 节点(可高吞吐量服务该模型),2026 年的市场价格约为 $20 - $35 每小时,视提供商而定(例如 Together AI、Lambda 或 Alibaba Cloud)。
参考资料:
- Qwen3.5-397B-A17B Model Card on NVIDIA NIM
- Qwen/Qwen3.5-397B-A17B on Hugging Face
- Artificial Analysis: Qwen3.5-397B-A17B Performance & Specs