2025年影响力AI论文摘要 | AI生成和翻译

Home 2026.05

问题: 过去一年有哪些新颖且有影响力的 AI/LLM 论文?

回答:

以下是一份按主题分类的、带有个人见解的精选解读——这些论文改变了思维方式,而不仅仅是刷榜。覆盖时间大致为 2024 年 5 月至 2026 年 5 月。


1. 推理与强化学习后训练

DeepSeek-R1(2025 年 1 月)——年度最佳论文

arXiv: 2501.12948

采用 GRPO(组相对策略优化)作为强化学习框架,奖励信号仅基于最终预测与真实答案的正确性,而不对推理过程施加约束——完全跳过了传统 RL 训练前的 SFT 阶段。

随着推理步数增加,出现了若干涌现行为:“顿悟时刻”、自我反思以及回溯修正策略。奖励设计采用可验证的正确性检查——代码能否编译?数学表达式是否得出正确结果?——如今被称为 RLVR(基于可验证奖励的强化学习)。

AIME 2024 的 pass@1 从 15.6% 提升至 71.0%,结合多数投票后达到 86.7%,与 OpenAI-o1-0912 持平。

关键洞察:推理可以作为一种涌现行为出现,而不仅是对人类轨迹的模仿。 这开启了一波“RL for reasoning”的研究浪潮(STILL、DAPO、Dr. GRPO 等)以及 RLVR 范式。

Dr. GRPO(2025): 识别出 GRPO 优化中的一个偏差,该偏差导致错误响应逐渐变长,并提出简单修正(GRPO Done Right)。在 Qwen2.5-Math-7B 上仅用 27 小时、8× A100 GPU 的计算量,就达到了当时最先进的推理性能。


s1:简单测试时缩放(2025 年 1 月)

arXiv: 2501.19393

展示了将 Gemini 2.0 Flash Thinking 的推理轨迹通过“预算强制”(强制模型思考直至达到 token 预算)蒸馏到 Qwen-32B 中,能以低成本获得强推理能力。微调仅使用约 1K 个示例。

表明如果你有合适的蒸馏数据,只需 50 美元微调成本就能获得 o1 级别的推理能力。与你正在进行的模型训练工作直接相关。


2. 架构与效率

Titans:在测试时学会记忆(2024 年 12 月)

Google Research

引入了一个神经长期记忆模块,能够在测试时学会记忆历史上下文,结合了循环模型和注意力机制的优势。可高效处理超过 200 万个 token 的序列。

这是本周期内最有趣的架构论文——它挑战了“注意力就是一切”这一假设在长上下文场景下的适用性。注意力 = 短期记忆,新模块 = 长期记忆。值得与 Mamba/SSM 相关文献一起阅读。


缩放 LLM 测试时计算(2024 年 8 月)

arXiv: 2408.03314 —— Berkeley/Google

主要论点:如果增加测试时计算量能提升 LLM 输出质量,那么在困难任务上,扩展推理计算可能比扩展模型参数更有效。

这为 o1、R1 以及整个推理模型浪潮提供了理论基础。预训练缩放正面临收益递减;推理时缩放成为新方向。


DeepSeek-V3 / MoE 架构(2024 年 12 月)

arXiv: 2412.19437

R1 背后的工程论文。主要贡献:

如果你想了解 671B MoE 如何高效运行,这篇论文是必读。


3. 推理优化

Trellis:可学习的 KV 缓存压缩(2025 年 12 月)

引入了一种可学习的、内存受限的 KV 缓存替代方案。在 RULER 等基准测试中,它以不到 1% 的内存占用保留更多上下文,从而优于基线方法。序列长度可扩展到 128K token,且无二次内存增长。

O(n²) 的 KV 缓存问题目前正从多个角度被攻克——SnapKV、RazorAttention、Trellis 以及上述的 MLA。如果你在 4070 上搭建推理系统,这些文献直接相关。


4. 智能体与记忆

AI 智能体时代的记忆:综述(2025 年 12 月)

区分了智能体记忆与 RAG 及上下文工程,从三个维度提供了全面的分类体系:形式(记忆的载体)、功能(记忆的作用)和动态(记忆如何演化)。涵盖从 KV 缓存淘汰到情景记忆模块的所有内容。

如果你在构建类似 ww/zz 工具的 CLI 智能体,这篇论文是很好的智能体记忆领域导航。


5. 开放与可复现模型

OLMo 2(2025 年)

2025 年最重要的完全开放 AI 模型论文之一——强调训练数据、架构和方法的完全透明。进一步推动了可复现开放 AI 研究的进程。

如果你正在训练 GPT-2 规模的模型,并希望了解大规模训练的真实决策,OLMo 2 的完全透明性(数据、检查点、训练代码)极具价值。


Qwen3(2025 年)

整合了灵活思考与非思考模式,优化了不同任务的资源使用。旗舰模型 Qwen3-235B-A22B 在主要基准测试上取得了 85.7 的成绩。

Qwen3 采用 GSPO(组序列策略优化),通过使用序列级重要性比率而非 token 级比率,提供了更稳定的 RL 训练,带来了“显著改进”。


6. 值得了解的基准


TL;DR 优先阅读顺序(对你而言)

优先级 论文 原因
🔥 必读 DeepSeek-R1 (2501.12948) RLVR、GRPO、涌现推理
🔥 必读 Test-Time Compute Scaling (2408.03314) 新缩放维度、预训练平台期
Titans (2024 年 12 月) 长上下文注意力的架构替代方案
DeepSeek-V3 (2412.19437) MLA、MoE 大规模工程
s1 (2501.19393) 预算强制、低成本推理蒸馏
Dr. GRPO (2503.20783) 修复 GRPO 偏差、低成本复现 R1
OLMo 2 开放训练透明度
略读 Trellis / SnapKV / RazorAttention KV 缓存压缩、推理优化

考虑到你目前正在训练 GPT-2 规模的模型,R1 + Dr. GRPO + s1 这个集群是最直接可行的——你完全可以在 Dr. GRPO 的预算内,用 4070 在数学数据集上复现 R1-Zero 训练。


参考文献:


Back Donate