Qwen3.6深度拆解:价值与炒作 | AI生成和翻译
问题:Qwen3.6-35B-A3B Uncensored——这真的是重大突破,还是营销噱头?
答案
TL;DR:扎实的推理工程,过度宣传的营销。真正的价值在于量化 + llama.cpp,而非模型能力本身。“Uncensored”的包装掩盖了实际发生的情况。
技术上真实的部分
MoE + GGUF 量化确实有用:
- 35B 参数 / 3B 激活(MoE 稀疏性)是真实的,借鉴自 DeepSeek 架构
- Q4_K_M 的 GGUF 量化可在大约 60-65% 的 VRAM 下获得约 90-95% 的模型质量
- 使用 IQ2_M(6GB)或 Q4_K_M(10-12GB)可在 6-8GB 上运行
- llama.cpp 的推理速度比 ollama/LM Studio 更快、更稳定——这部分不是炒作
多模态支持是真实的:
- Qwen 3.6 基座具有视觉能力,llama.cpp 现在通过
--mmproj正确处理多模态 - 这对本地视觉工作流确实有用
宣传夸大的部分
“Uncensored” ≠ “更智能”
他们实际做的:移除了安全微调层。这并不会让模型变得更强,只是移除了对某些提示词的拒绝回答。技术现实:
- 安全微调通常会让基准测试性能损失 1-3%(可忽略)
- “激进性”是通过系统提示 + LoRA 或后训练实现的,而非模型结构
- 你并没有获得新的推理能力——你只是绕过了护栏
基准测试声明需要验证:
该博客声称在 Artificial Analysis 上“在 40B 模型中处于第一梯队”。建议直接在其排行榜上核实,不要只看表面。营销博客经常挑选指标或测试条件。
真正的实际价值在于
如果你在本地工作站(RTX 4070 + 12GB VRAM)上部署它,你实际获得的是:
# 这才是真正的优势:
llama-server \
-m qwen3.6-35b-q4_k_m.gguf \
-ngl 999 \
-c 131072 \
--host 127.0.0.1 --port 8080
实际收益:
- 零延迟、零 token 费用(本地推理)
- 无 API 配额——随心编写代码,拥有无限上下文窗口
- 视觉 + 文本集成在一个本地模型中
- Agent 集成(Hermes/OpenClaw)无需 API 开销
对于构建 CLI 代理或需要推理 + 视觉的自动化系统来说,这确实很有价值。
需要追问的关键问题
-
基准测试现实检验:在你的实际工作负载上(不是 Artificial Analysis,而是真实的代码/推理任务),它是否真的优于未量化的 deepseek-v4-flash 或 mimo-2.5-pro?
-
为什么选 Qwen 基座? 它本身不错,但除了“可以用来越狱”之外,还有其他理由吗?Llama 3.1 405B 量化版或等待 deepseek-v4 量化版呢?
-
安全移除的权衡:如果你在构建与外部系统交互的产品或工具,移除安全层可能成为责任(API 调用时产生幻觉等)。这比“自由”叙事所暗示的更值得关注。
-
多模态质量:视觉能力与 Claude 3.5 Vision 或 deepseek-v4-vision 相比,在代码/UI 分析上表现如何?真实测试:一张复杂仪表盘的截图 → 能否准确提取数据?
我实际会测试的内容
# 在你的 4070 上,比较:
# 1. qwen3.6-35b-q4_k_m(此模型,Uncensored)
# 2. deepseek-v4-flash 量化版(如有)
# 3. 你现有的通过 API 使用的 mimo-2.5-pro 设置
# 基准测试:从你的 CLI 代理工作中取 5 个真实任务
# - 代码生成与执行
# - 长上下文推理(>8K tokens)
# - 截图视觉分析
# - 工具调用准确性
# 胜出者 = 真实价值,而非炒作
客观评价
这是一个不错的本地推理方案,但并非“突破”。你得到的是:
- ✅ 在不错的硬件上免费、无限制的推理
- ✅ 本地多模态(确实有用)
- ✅ 通过 llama.cpp 实现快速服务(真实优化)
- ❌ 并非根本上更智能(移除安全 ≠ 能力提升)
- ❌ 在高质量推理方面,可能无法取代 deepseek-v4-flash
对于你的用例: 值得在 4070 上花 30 分钟测试。如果它能很好地集成 Hermes/OpenClaw,并在不牺牲推理质量的前提下降低你代理工作的 API 成本,就采用它。否则,生产推理保留 deepseek-v4-flash,本地多模态用于视觉任务。
真正的技术问题不是“它是否 uncensored?”,而是“它能否在不降低质量的前提下为你省钱、省 token?”这是可衡量的。