VibeThinker-3B: 小型模型，前沿推理

VibeThinker-3B: 小型模型，前沿推理 | AI生成和翻译

首页 2026.06

问题： What is WeiboAI/VibeThinker-3B?

答案：

VibeThinker-3B 是微博 AI 推出的一款小型语言模型（SLM），专注于在 3B 参数规模下将可验证推理能力推向前沿。该模型发布于约 5 天前（论文：arXiv 2606.16140）。以下是详细解析：

基础模型： Qwen2.5-3B（及 Qwen2.5-Coder-3B），经过多阶段流水线微调。

核心假设——参数压缩-覆盖假设：

可验证推理（数学、代码、STEM）是一种高度可压缩、参数密集的能力。如果反馈信号可靠且任务空间结构清晰，小模型也能达到接近前沿的性能。相反，开放域知识则需要大规模参数来覆盖长尾分布。

这是一个有意义的区分——他们并未声称 3B 模型能替代 671B 模型处理通用知识，而是仅针对可验证任务。

训练流水线（频谱到信号原则，SSP）：

课程式监督微调（2 个阶段）——阶段 1：广泛覆盖（数学、代码、STEM、对话）。阶段 2：难度更高、推理链条更长的样本。采用多样性探索蒸馏来保留多个有效解题路径。
多领域强化学习——最大熵引导策略优化（MGPO），按数学→代码→STEM 顺序依次应用。64K 上下文窗口确保完整保留推理轨迹。
离线自我蒸馏——筛选高质量强化学习轨迹，蒸馏回统一的学生模型。优先处理结果正确但尚未被模型良好建模的样本（学习潜力得分）。
指令强化学习——最终阶段用于提升面向用户的可控性，采用基于规则的验证器与基于评分标准的奖励模型。

性能数据：

IMO-AnswerBench（400 道 IMO 级别题目）： 76.4，配合CLR（声明级可靠性评估，一种测试时扩展策略） 提升至 80.6
与 DeepSeek V3.2（78.3，671B）、GLM-5（82.5，744B）、Kimi K2.5（81.8，1T）性能相当——而参数量仅为 3B
LeetCode（2026 年 4 月 25 日至 5 月 31 日，未见过的竞赛题目）： 128 次首次提交中通过 123 次，通过率 96.1%

对你而言值得关注的点：

参考文献：

返回捐助