Qwen3.6深度拆解:价值与炒作 | AI生成和翻译

Home 2026.06

问题:Qwen3.6-35B-A3B Uncensored——这真的是重大突破,还是营销噱头?


答案

TL;DR:扎实的推理工程,过度宣传的营销。真正的价值在于量化 + llama.cpp,而非模型能力本身。“Uncensored”的包装掩盖了实际发生的情况。

技术上真实的部分

MoE + GGUF 量化确实有用:

多模态支持是真实的:

宣传夸大的部分

“Uncensored” ≠ “更智能”

他们实际做的:移除了安全微调层。这并不会让模型变得更强,只是移除了对某些提示词的拒绝回答。技术现实:

基准测试声明需要验证:

该博客声称在 Artificial Analysis 上“在 40B 模型中处于第一梯队”。建议直接在其排行榜上核实,不要只看表面。营销博客经常挑选指标或测试条件。

真正的实际价值在于

如果你在本地工作站(RTX 4070 + 12GB VRAM)上部署它,你实际获得的是:

# 这才是真正的优势:
llama-server \
  -m qwen3.6-35b-q4_k_m.gguf \
  -ngl 999 \
  -c 131072 \
  --host 127.0.0.1 --port 8080

实际收益:

对于构建 CLI 代理或需要推理 + 视觉的自动化系统来说,这确实很有价值。

需要追问的关键问题

  1. 基准测试现实检验:在你的实际工作负载上(不是 Artificial Analysis,而是真实的代码/推理任务),它是否真的优于未量化的 deepseek-v4-flash 或 mimo-2.5-pro?

  2. 为什么选 Qwen 基座? 它本身不错,但除了“可以用来越狱”之外,还有其他理由吗?Llama 3.1 405B 量化版或等待 deepseek-v4 量化版呢?

  3. 安全移除的权衡:如果你在构建与外部系统交互的产品或工具,移除安全层可能成为责任(API 调用时产生幻觉等)。这比“自由”叙事所暗示的更值得关注。

  4. 多模态质量:视觉能力与 Claude 3.5 Vision 或 deepseek-v4-vision 相比,在代码/UI 分析上表现如何?真实测试:一张复杂仪表盘的截图 → 能否准确提取数据?

我实际会测试的内容

# 在你的 4070 上,比较:
# 1. qwen3.6-35b-q4_k_m(此模型,Uncensored)
# 2. deepseek-v4-flash 量化版(如有)
# 3. 你现有的通过 API 使用的 mimo-2.5-pro 设置

# 基准测试:从你的 CLI 代理工作中取 5 个真实任务
# - 代码生成与执行
# - 长上下文推理(>8K tokens)
# - 截图视觉分析
# - 工具调用准确性

# 胜出者 = 真实价值,而非炒作

客观评价

这是一个不错的本地推理方案,但并非“突破”。你得到的是:

对于你的用例: 值得在 4070 上花 30 分钟测试。如果它能很好地集成 Hermes/OpenClaw,并在不牺牲推理质量的前提下降低你代理工作的 API 成本,就采用它。否则,生产推理保留 deepseek-v4-flash,本地多模态用于视觉任务。

真正的技术问题不是“它是否 uncensored?”,而是“它能否在不降低质量的前提下为你省钱、省 token?”这是可衡量的。


Back Donate