VibeThinker-3B: 小型模型,前沿推理 | AI生成和翻译

Home 2026.06

问题: What is WeiboAI/VibeThinker-3B?

答案:

VibeThinker-3B 是微博 AI 推出的一款小型语言模型(SLM),专注于在 3B 参数规模下将可验证推理能力推向前沿。该模型发布于约 5 天前(论文:arXiv 2606.16140)。以下是详细解析:

基础模型: Qwen2.5-3B(及 Qwen2.5-Coder-3B),经过多阶段流水线微调。

核心假设——参数压缩-覆盖假设:

可验证推理(数学、代码、STEM)是一种高度可压缩、参数密集的能力。如果反馈信号可靠且任务空间结构清晰,小模型也能达到接近前沿的性能。相反,开放域知识则需要大规模参数来覆盖长尾分布。

这是一个有意义的区分——他们并未声称 3B 模型能替代 671B 模型处理通用知识,而是仅针对可验证任务。


训练流水线(频谱到信号原则,SSP):

  1. 课程式监督微调(2 个阶段)——阶段 1:广泛覆盖(数学、代码、STEM、对话)。阶段 2:难度更高、推理链条更长的样本。采用多样性探索蒸馏来保留多个有效解题路径。
  2. 多领域强化学习——最大熵引导策略优化(MGPO),按数学→代码→STEM 顺序依次应用。64K 上下文窗口确保完整保留推理轨迹。
  3. 离线自我蒸馏——筛选高质量强化学习轨迹,蒸馏回统一的学生模型。优先处理结果正确但尚未被模型良好建模的样本(学习潜力得分)。
  4. 指令强化学习——最终阶段用于提升面向用户的可控性,采用基于规则的验证器与基于评分标准的奖励模型。

性能数据:


对你而言值得关注的点:


参考文献:


Back Donate