稀疏混合专家人工智能模型 | AI生成和翻译
问题: Qwen3.6-35B-A3B 中的 “A3B” 是什么意思?”A” 代表 “activation”(激活)吗?
回答:
是的。”A3B” 表示每次前向传播仅激活 30 亿参数,尽管完整的权重文件包含 350 亿参数——这是一种稀疏混合专家(Mixture-of-Experts)设计。
架构解析:
Qwen3.6-35B-A3B 采用 Gated DeltaNet MoE 架构,包含 256 个专家,每个 token 路由到 8 个专家加上 1 个共享专家。路由器网络学习为每个 token 激活哪些专家子网络;其余 247 个专家保持静默。稀疏比约为 12:1(总 350 亿中激活 30 亿)——在所有公开发布的模型中属于最为激进的之一。
这对你的意义:
该模型仅需 30 亿激活参数即可提供前沿级别的编程和智能体(agent)性能,使其在部署时极具吸引力,因为它在降低推理成本的同时,在编程和工具密集型任务上表现得像一个更大的模型。在 SWE-bench Verified 上,Qwen3.6-35B-A3B 得分 73.4%,而 Gemma 4-31B(一个稠密 31B 模型)得分为 52.0%。
它支持 262K token 的本地上下文窗口(通过 YaRN 可扩展至 1M),并包含集成思考模式,在多轮对话中保留推理轨迹。可通过阿里云 API 以 qwen3.6-flash 使用,或在 HuggingFace 上以 Apache 2.0 协议开源。
考虑到你的 MI300X 配置以及对 MoE 架构的兴趣——这值得测试。其稀疏模式和门控注意力混合(Gated DeltaNet 混合线性 + 门控注意力)更接近 DeepSeek v4 风格架构,而非典型的稠密 Transformer。
参考文献: