VibeThinker-3B: 小型模型,前沿推理 | AI生成和翻译
问题: What is WeiboAI/VibeThinker-3B?
答案:
VibeThinker-3B 是微博 AI 推出的一款小型语言模型(SLM),专注于在 3B 参数规模下将可验证推理能力推向前沿。该模型发布于约 5 天前(论文:arXiv 2606.16140)。以下是详细解析:
基础模型: Qwen2.5-3B(及 Qwen2.5-Coder-3B),经过多阶段流水线微调。
核心假设——参数压缩-覆盖假设:
可验证推理(数学、代码、STEM)是一种高度可压缩、参数密集的能力。如果反馈信号可靠且任务空间结构清晰,小模型也能达到接近前沿的性能。相反,开放域知识则需要大规模参数来覆盖长尾分布。
这是一个有意义的区分——他们并未声称 3B 模型能替代 671B 模型处理通用知识,而是仅针对可验证任务。
训练流水线(频谱到信号原则,SSP):
- 课程式监督微调(2 个阶段)——阶段 1:广泛覆盖(数学、代码、STEM、对话)。阶段 2:难度更高、推理链条更长的样本。采用多样性探索蒸馏来保留多个有效解题路径。
- 多领域强化学习——最大熵引导策略优化(MGPO),按数学→代码→STEM 顺序依次应用。64K 上下文窗口确保完整保留推理轨迹。
- 离线自我蒸馏——筛选高质量强化学习轨迹,蒸馏回统一的学生模型。优先处理结果正确但尚未被模型良好建模的样本(学习潜力得分)。
- 指令强化学习——最终阶段用于提升面向用户的可控性,采用基于规则的验证器与基于评分标准的奖励模型。
性能数据:
- IMO-AnswerBench(400 道 IMO 级别题目): 76.4,配合CLR(声明级可靠性评估,一种测试时扩展策略) 提升至 80.6
- 与 DeepSeek V3.2(78.3,671B)、GLM-5(82.5,744B)、Kimi K2.5(81.8,1T)性能相当——而参数量仅为 3B
- LeetCode(2026 年 4 月 25 日至 5 月 31 日,未见过的竞赛题目): 128 次首次提交中通过 123 次,通过率 96.1%
对你而言值得关注的点:
- SSP 流水线(SFT → RL → 自我蒸馏 → 指令 RL)是一个清晰、可复现的方案,可直接应用于你正在进行的 nanoGPT/nanochat 规模实验
- MGPO 是他们关于熵正则化策略优化的方法——建议阅读其 1.5B 论文以理解数学原理
- CLR(通过声明级可靠性进行测试时扩展)是一种有趣的推理阶段技巧,可在不改变权重的情况下将 IMO 得分从 76.4 提升至 80.6
- 未针对工具调用/智能体进行训练——仅适用于竞赛数学/LeetCode 类问题
参考文献: