Qwen3.5-397B 模型技术与成本概述

Qwen3.5-397B 模型技术与成本概述 | AI生成和翻译

首页 2026.04

问题： Qwen3.5-397B-A17B 的训练细节、架构和预计成本是什么？

回答： 该模型于 2026 年 2 月发布，Qwen3.5-397B-A17B 是 Alibaba 的 Qwen 团队推出的旗舰级原生视觉-语言模型。它以大规模参数结合高推理效率的稀疏架构而著称。

该模型采用 Hybrid Mixture-of-Experts (MoE) 架构，结合 Gated DeltaNet（一种线性注意力机制），使其比标准 Transformer 更高效地处理极长上下文。

Total Parameters: 397 Billion
Active Parameters: 17 Billion (per token)
Layers: 60
Hidden Dimension: 4,096
Experts: 512 total experts (10 routed + 1 shared expert activated per token)。
Context Window: 262,144 tokens (native)，可通过 YaRN RoPE 扩展至 1.01 million tokens。
Tokenizer: 248,320 vocabulary size，支持 201 种语言。

虽然 Alibaba 未披露具体数据集，但训练涉及多项先进技术：

Data Scale: 万亿级多模态 tokens，涵盖文本、图像和视频。
Multi-Token Prediction (MTP): 使用多步预测训练，以提升长时程推理和规划能力。
Early Fusion: 统一的 multimodal 主干网络，从一开始就在同一潜在空间处理视觉和语言 tokens。
Post-Training: 大量使用 Reinforcement Learning (RL) 来增强“Thinking Mode”（内部推理）和代理能力。

该模型针对 NVIDIA GPU-accelerated systems（H100/H200/B200 集群）进行了优化。

Card Requirements: 由于总参数量达 397B，即使使用 4-bit quantization（约 200GB+ VRAM），推理通常需要多 GPU 配置（例如 8x H100 80GB 或 4x B200）。训练此类模型需要数千个互联 GPU。
API Costs (per 1M tokens): * Input: ~$0.39 - $0.60
- Output: ~$2.34 - $3.60
Estimated Compute Cost/Hour: 租用 8x H100 节点（可高吞吐量服务该模型），2026 年的市场价格约为 $20 - $35 每小时，视提供商而定（例如 Together AI、Lambda 或 Alibaba Cloud）。

参考资料：

返回捐助