2025年影响力AI论文摘要

2025年影响力AI论文摘要 | AI生成和翻译

首页 2026.05

问题： 过去一年有哪些新颖且有影响力的 AI/LLM 论文？

回答：

以下是一份按主题分类的、带有个人见解的精选解读——这些论文改变了思维方式，而不仅仅是刷榜。覆盖时间大致为 2024 年 5 月至 2026 年 5 月。

1. 推理与强化学习后训练

DeepSeek-R1（2025 年 1 月）——年度最佳论文

arXiv: 2501.12948

采用 GRPO（组相对策略优化）作为强化学习框架，奖励信号仅基于最终预测与真实答案的正确性，而不对推理过程施加约束——完全跳过了传统 RL 训练前的 SFT 阶段。

随着推理步数增加，出现了若干涌现行为：“顿悟时刻”、自我反思以及回溯修正策略。奖励设计采用可验证的正确性检查——代码能否编译？数学表达式是否得出正确结果？——如今被称为 RLVR（基于可验证奖励的强化学习）。

AIME 2024 的 pass@1 从 15.6% 提升至 71.0%，结合多数投票后达到 86.7%，与 OpenAI-o1-0912 持平。

关键洞察：推理可以作为一种涌现行为出现，而不仅是对人类轨迹的模仿。 这开启了一波“RL for reasoning”的研究浪潮（STILL、DAPO、Dr. GRPO 等）以及 RLVR 范式。

Dr. GRPO（2025）： 识别出 GRPO 优化中的一个偏差，该偏差导致错误响应逐渐变长，并提出简单修正（GRPO Done Right）。在 Qwen2.5-Math-7B 上仅用 27 小时、8× A100 GPU 的计算量，就达到了当时最先进的推理性能。

s1：简单测试时缩放（2025 年 1 月）

arXiv: 2501.19393

展示了将 Gemini 2.0 Flash Thinking 的推理轨迹通过“预算强制”（强制模型思考直至达到 token 预算）蒸馏到 Qwen-32B 中，能以低成本获得强推理能力。微调仅使用约 1K 个示例。

表明如果你有合适的蒸馏数据，只需 50 美元微调成本就能获得 o1 级别的推理能力。与你正在进行的模型训练工作直接相关。

2. 架构与效率

Titans：在测试时学会记忆（2024 年 12 月）

Google Research

引入了一个神经长期记忆模块，能够在测试时学会记忆历史上下文，结合了循环模型和注意力机制的优势。可高效处理超过 200 万个 token 的序列。

这是本周期内最有趣的架构论文——它挑战了“注意力就是一切”这一假设在长上下文场景下的适用性。注意力 = 短期记忆，新模块 = 长期记忆。值得与 Mamba/SSM 相关文献一起阅读。

缩放 LLM 测试时计算（2024 年 8 月）

arXiv: 2408.03314 —— Berkeley/Google

主要论点：如果增加测试时计算量能提升 LLM 输出质量，那么在困难任务上，扩展推理计算可能比扩展模型参数更有效。

这为 o1、R1 以及整个推理模型浪潮提供了理论基础。预训练缩放正面临收益递减；推理时缩放成为新方向。

DeepSeek-V3 / MoE 架构（2024 年 12 月）

arXiv: 2412.19437

R1 背后的工程论文。主要贡献：

多头潜在注意力（MLA）——通过低秩投影压缩 KV 缓存
MoE 的无辅助损失负载均衡
大规模 FP8 混合精度训练

如果你想了解 671B MoE 如何高效运行，这篇论文是必读。

3. 推理优化

Trellis：可学习的 KV 缓存压缩（2025 年 12 月）

引入了一种可学习的、内存受限的 KV 缓存替代方案。在 RULER 等基准测试中，它以不到 1% 的内存占用保留更多上下文，从而优于基线方法。序列长度可扩展到 128K token，且无二次内存增长。

O(n²) 的 KV 缓存问题目前正从多个角度被攻克——SnapKV、RazorAttention、Trellis 以及上述的 MLA。如果你在 4070 上搭建推理系统，这些文献直接相关。

4. 智能体与记忆

AI 智能体时代的记忆：综述（2025 年 12 月）

区分了智能体记忆与 RAG 及上下文工程，从三个维度提供了全面的分类体系：形式（记忆的载体）、功能（记忆的作用）和动态（记忆如何演化）。涵盖从 KV 缓存淘汰到情景记忆模块的所有内容。

如果你在构建类似 ww/zz 工具的 CLI 智能体，这篇论文是很好的智能体记忆领域导航。

5. 开放与可复现模型

OLMo 2（2025 年）

2025 年最重要的完全开放 AI 模型论文之一——强调训练数据、架构和方法的完全透明。进一步推动了可复现开放 AI 研究的进程。

如果你正在训练 GPT-2 规模的模型，并希望了解大规模训练的真实决策，OLMo 2 的完全透明性（数据、检查点、训练代码）极具价值。

Qwen3（2025 年）

整合了灵活思考与非思考模式，优化了不同任务的资源使用。旗舰模型 Qwen3-235B-A22B 在主要基准测试上取得了 85.7 的成绩。

Qwen3 采用 GSPO（组序列策略优化），通过使用序列级重要性比率而非 token 级比率，提供了更稳定的 RL 训练，带来了“显著改进”。

6. 值得了解的基准

SWE-Lancer —— 在 Upwork 上对 1,400 多个自由职业编程任务进行 LLM 基准测试。即使是 Claude 3.5 Sonnet 的成功率也仅有 26.2%，突显了 AI 在应用软件工程方面的当前局限。
CURIE —— 评估 LLM 在长科学文档推理（量子计算、材料科学）方面的能力。
WideSearch —— 测试广泛信息收集型智能体与狭窄深度推理型智能体的对比。

TL;DR 优先阅读顺序（对你而言）

优先级	论文	原因
🔥 必读	DeepSeek-R1 (2501.12948)	RLVR、GRPO、涌现推理
🔥 必读	Test-Time Compute Scaling (2408.03314)	新缩放维度、预训练平台期
高	Titans (2024 年 12 月)	长上下文注意力的架构替代方案
高	DeepSeek-V3 (2412.19437)	MLA、MoE 大规模工程
高	s1 (2501.19393)	预算强制、低成本推理蒸馏
中	Dr. GRPO (2503.20783)	修复 GRPO 偏差、低成本复现 R1
中	OLMo 2	开放训练透明度
略读	Trellis / SnapKV / RazorAttention	KV 缓存压缩、推理优化

考虑到你目前正在训练 GPT-2 规模的模型，R1 + Dr. GRPO + s1 这个集群是最直接可行的——你完全可以在 Dr. GRPO 的预算内，用 4070 在数学数据集上复现 R1-Zero 训练。

参考文献：

返回捐助