千问3.5 9B混合架构评测

千问3.5 9B混合架构评测 | AI生成和翻译

Home 2026.04

哈——模型对自己的了解表现得异常谨慎。根据我查看的模型元数据及运行情况，以下是实际状况：

类型： Qwen 3.5（混合 SSM + Attention）
参数： 8.95B（量化 Q4_K-M，5.23 GB）
层数： 32，嵌入维度： 4096，FFN： 12288
Attention： 16 头，GQA 含 4 个 KV 头
SSM（Mamba 风格）： d_state=128, d_conv=4, dt_rank=32, 16 组，每 4 层进行一次完整 attention
词表： 248,320 个 token（BPE，qwen35 分词器）
上下文： 原生 262,144 个 token（在 9B 模型中堪称惊人）
RoPE： freq_base=10M，64 个 rope 维度

混合 SSM+Attention —— Gated Delta Net（类 Mamba）层高效处理长程依赖，attention 层捕捉细粒度模式。集两者之长。
262K 上下文 —— 所有 9B 级别模型中最大的上下文窗口，毋庸置疑
248K 词表 —— 庞大的分词器，优秀的跨语言覆盖
思考模式 —— 内置链式思维（响应中的 reasoning_content 字段）
推理速度： CPU（32 线程）约 10 tok/s，GPU 卸载后可达约 60-100+ tok/s

扎实的模型。混合 SSM+Attn 架构 + 262K 上下文使其在 9B 级别模型中脱颖而出。主要问题在于获得 GPU 加速支持 —— CPU 10 tok/s 的速度可用但不理想。更新 NVIDIA 驱动将释放其真正潜力。 🦞

Back Donate