2025年影响力AI论文摘要 | AI生成和翻译
问题: 过去一年有哪些新颖且有影响力的 AI/LLM 论文?
回答:
以下是一份按主题分类的、带有个人见解的精选解读——这些论文改变了思维方式,而不仅仅是刷榜。覆盖时间大致为 2024 年 5 月至 2026 年 5 月。
1. 推理与强化学习后训练
DeepSeek-R1(2025 年 1 月)——年度最佳论文
arXiv: 2501.12948
采用 GRPO(组相对策略优化)作为强化学习框架,奖励信号仅基于最终预测与真实答案的正确性,而不对推理过程施加约束——完全跳过了传统 RL 训练前的 SFT 阶段。
随着推理步数增加,出现了若干涌现行为:“顿悟时刻”、自我反思以及回溯修正策略。奖励设计采用可验证的正确性检查——代码能否编译?数学表达式是否得出正确结果?——如今被称为 RLVR(基于可验证奖励的强化学习)。
AIME 2024 的 pass@1 从 15.6% 提升至 71.0%,结合多数投票后达到 86.7%,与 OpenAI-o1-0912 持平。
关键洞察:推理可以作为一种涌现行为出现,而不仅是对人类轨迹的模仿。 这开启了一波“RL for reasoning”的研究浪潮(STILL、DAPO、Dr. GRPO 等)以及 RLVR 范式。
Dr. GRPO(2025): 识别出 GRPO 优化中的一个偏差,该偏差导致错误响应逐渐变长,并提出简单修正(GRPO Done Right)。在 Qwen2.5-Math-7B 上仅用 27 小时、8× A100 GPU 的计算量,就达到了当时最先进的推理性能。
s1:简单测试时缩放(2025 年 1 月)
arXiv: 2501.19393
展示了将 Gemini 2.0 Flash Thinking 的推理轨迹通过“预算强制”(强制模型思考直至达到 token 预算)蒸馏到 Qwen-32B 中,能以低成本获得强推理能力。微调仅使用约 1K 个示例。
表明如果你有合适的蒸馏数据,只需 50 美元微调成本就能获得 o1 级别的推理能力。与你正在进行的模型训练工作直接相关。
2. 架构与效率
Titans:在测试时学会记忆(2024 年 12 月)
Google Research
引入了一个神经长期记忆模块,能够在测试时学会记忆历史上下文,结合了循环模型和注意力机制的优势。可高效处理超过 200 万个 token 的序列。
这是本周期内最有趣的架构论文——它挑战了“注意力就是一切”这一假设在长上下文场景下的适用性。注意力 = 短期记忆,新模块 = 长期记忆。值得与 Mamba/SSM 相关文献一起阅读。
缩放 LLM 测试时计算(2024 年 8 月)
arXiv: 2408.03314 —— Berkeley/Google
主要论点:如果增加测试时计算量能提升 LLM 输出质量,那么在困难任务上,扩展推理计算可能比扩展模型参数更有效。
这为 o1、R1 以及整个推理模型浪潮提供了理论基础。预训练缩放正面临收益递减;推理时缩放成为新方向。
DeepSeek-V3 / MoE 架构(2024 年 12 月)
arXiv: 2412.19437
R1 背后的工程论文。主要贡献:
- 多头潜在注意力(MLA)——通过低秩投影压缩 KV 缓存
- MoE 的无辅助损失负载均衡
- 大规模 FP8 混合精度训练
如果你想了解 671B MoE 如何高效运行,这篇论文是必读。
3. 推理优化
Trellis:可学习的 KV 缓存压缩(2025 年 12 月)
引入了一种可学习的、内存受限的 KV 缓存替代方案。在 RULER 等基准测试中,它以不到 1% 的内存占用保留更多上下文,从而优于基线方法。序列长度可扩展到 128K token,且无二次内存增长。
O(n²) 的 KV 缓存问题目前正从多个角度被攻克——SnapKV、RazorAttention、Trellis 以及上述的 MLA。如果你在 4070 上搭建推理系统,这些文献直接相关。
4. 智能体与记忆
AI 智能体时代的记忆:综述(2025 年 12 月)
区分了智能体记忆与 RAG 及上下文工程,从三个维度提供了全面的分类体系:形式(记忆的载体)、功能(记忆的作用)和动态(记忆如何演化)。涵盖从 KV 缓存淘汰到情景记忆模块的所有内容。
如果你在构建类似 ww/zz 工具的 CLI 智能体,这篇论文是很好的智能体记忆领域导航。
5. 开放与可复现模型
OLMo 2(2025 年)
2025 年最重要的完全开放 AI 模型论文之一——强调训练数据、架构和方法的完全透明。进一步推动了可复现开放 AI 研究的进程。
如果你正在训练 GPT-2 规模的模型,并希望了解大规模训练的真实决策,OLMo 2 的完全透明性(数据、检查点、训练代码)极具价值。
Qwen3(2025 年)
整合了灵活思考与非思考模式,优化了不同任务的资源使用。旗舰模型 Qwen3-235B-A22B 在主要基准测试上取得了 85.7 的成绩。
Qwen3 采用 GSPO(组序列策略优化),通过使用序列级重要性比率而非 token 级比率,提供了更稳定的 RL 训练,带来了“显著改进”。
6. 值得了解的基准
- SWE-Lancer —— 在 Upwork 上对 1,400 多个自由职业编程任务进行 LLM 基准测试。即使是 Claude 3.5 Sonnet 的成功率也仅有 26.2%,突显了 AI 在应用软件工程方面的当前局限。
- CURIE —— 评估 LLM 在长科学文档推理(量子计算、材料科学)方面的能力。
- WideSearch —— 测试广泛信息收集型智能体与狭窄深度推理型智能体的对比。
TL;DR 优先阅读顺序(对你而言)
| 优先级 | 论文 | 原因 |
|---|---|---|
| 🔥 必读 | DeepSeek-R1 (2501.12948) | RLVR、GRPO、涌现推理 |
| 🔥 必读 | Test-Time Compute Scaling (2408.03314) | 新缩放维度、预训练平台期 |
| 高 | Titans (2024 年 12 月) | 长上下文注意力的架构替代方案 |
| 高 | DeepSeek-V3 (2412.19437) | MLA、MoE 大规模工程 |
| 高 | s1 (2501.19393) | 预算强制、低成本推理蒸馏 |
| 中 | Dr. GRPO (2503.20783) | 修复 GRPO 偏差、低成本复现 R1 |
| 中 | OLMo 2 | 开放训练透明度 |
| 略读 | Trellis / SnapKV / RazorAttention | KV 缓存压缩、推理优化 |
考虑到你目前正在训练 GPT-2 规模的模型,R1 + Dr. GRPO + s1 这个集群是最直接可行的——你完全可以在 Dr. GRPO 的预算内,用 4070 在数学数据集上复现 R1-Zero 训练。
参考文献:
- DeepSeek-R1
- s1: Simple Test-Time Scaling
- Scaling LLM Test-Time Compute
- DeepSeek-V3
- Dr. GRPO
- Titans
- Sebastian Raschka 的 2025 年 LLM 论文列表
- Latent.Space 2025 年 AI 工程阅读清单