大语言模型推理技术

大语言模型推理技术 | AI生成和翻译

Home 2025.10

概述

Denny Zhou（可能原意为“Danny Zhou”）在斯坦福大学CS25课程《Transformers United》（第五版）中发表了题为《大语言模型推理》的讲座。他全面阐述了大语言模型（LLM）的推理机制，重点介绍了实用技术、理论基础及当前面临的挑战。以下内容根据其幻灯片及讲义整理而成。

LLM推理的定义

LLM推理的本质在于生成中间标记（或称步骤），即在输入提示词与最终答案之间构建逻辑桥梁，而非直接输出结果。这一过程使模型能够分解复杂问题。
它无需完全模拟人类推理方式——核心目标是高效解决问题。例如，通过逐步拼接单词尾字母回答“’artificial intelligence’的最后两个字母是什么？”得到“le”，展示了中间步骤如何辅助计算。
理论支撑：对于可用规模为T的布尔电路求解的问题，恒定规模的Transformer可通过生成O(T)个中间标记处理，无需依赖模型规模的无限扩展。

研究动机

预训练LLM本身具备推理能力，无需特殊提示或微调；所谓“模型无法推理”的说法已被证伪——问题源于解码方法未能有效激发推理过程。
该方法契合“苦涩的教训”：利用计算（通过标记生成）替代人类思维捷径，通过下一标记预测涌现类人推理行为。
聚焦于优化最终目标指标（如答案正确率），使用模型生成数据替代昂贵的人工标注。

核心思想

思维链解码：生成多个候选回答，选择最终答案置信度最高的路径。推理路径的置信度通常高于直接猜测（例如统计场景中的苹果数量）。
通过长度而非深度扩展：训练模型生成更长序列（O(T)个标记）处理串行问题，无需增加模型规模即可提升能力。
聚合优于单次输出：生成并整合多个回答（如多数投票法）优于单一输出；结合相似问题检索与推理的表现优于纯推理。
实例：Gemini 2.0的“思考模式”通过优先运算（如45×45=2025）解决用1-10数字组合出2025的谜题。

关键技术

提示工程：使用少量示例或“让我们逐步思考”等短语引导中间步骤生成（如数学应用题）。零样本方法有效但稳定性较低。
监督微调：基于人工标注的分步解决方案训练，提高推理路径的生成概率。
自我改进：从模型输出中筛选正确的推理路径生成训练数据。
强化学习微调：迭代奖励完整正确答案（推理+结果）并惩罚错误回答，需配合验证器。在可验证任务中泛化能力最强；感谢Jonathan Lai等团队成员贡献。
自我一致性：采样多条推理路径后聚合结果（如最高频答案）。开放任务的通用变体允许模型自主选择路径。
检索+推理：引入相关示例辅助推理（如调用距离公式求解面积问题）。
其他增强技术：“退一步思考”实现抽象化；边际修正改善概率解码偏差。

局限性

提示工程：简单但脆弱，需任务特定示例；通用提示效果欠佳。
监督微调：对分布外问题泛化能力不足（例如针对“strawberry”字母计数的训练无法应对新词）。
强化学习：依赖可靠验证器，但并非所有任务都具备（如创意写作）。
通用挑战：LLM是概率预测器，贪婪解码易选择流畅但错误的答案。聚合方法有助于可验证任务，但无法解决不可验证领域的问题。
解码偏差：即使强模型也可能在无干预情况下未能将推理路径置于最高优先级。

未来方向

突破基准测试局限，拓展至现实应用（如缺乏完美指标的翻译优化任务）。
扩展聚合与检索机制的规模效应。
改进解码策略（如边际优化），增强概率输出与正确性的对齐。
构建跨会话“记忆”成功推理路径的系统。

本讲座强调强化学习微调是当前核心技术，并指出应将推理视为可扩展的生成问题。

参考资料

Back Donate