大语言模型推理技术 | AI生成和翻译
概述
Denny Zhou(可能原意为“Danny Zhou”)在斯坦福大学CS25课程《Transformers United》(第五版)中发表了题为《大语言模型推理》的讲座。他全面阐述了大语言模型(LLM)的推理机制,重点介绍了实用技术、理论基础及当前面临的挑战。以下内容根据其幻灯片及讲义整理而成。
LLM推理的定义
- LLM推理的本质在于生成中间标记(或称步骤),即在输入提示词与最终答案之间构建逻辑桥梁,而非直接输出结果。这一过程使模型能够分解复杂问题。
- 它无需完全模拟人类推理方式——核心目标是高效解决问题。例如,通过逐步拼接单词尾字母回答“’artificial intelligence’的最后两个字母是什么?”得到“le”,展示了中间步骤如何辅助计算。
- 理论支撑:对于可用规模为T的布尔电路求解的问题,恒定规模的Transformer可通过生成O(T)个中间标记处理,无需依赖模型规模的无限扩展。
研究动机
- 预训练LLM本身具备推理能力,无需特殊提示或微调;所谓“模型无法推理”的说法已被证伪——问题源于解码方法未能有效激发推理过程。
- 该方法契合“苦涩的教训”:利用计算(通过标记生成)替代人类思维捷径,通过下一标记预测涌现类人推理行为。
- 聚焦于优化最终目标指标(如答案正确率),使用模型生成数据替代昂贵的人工标注。
核心思想
- 思维链解码:生成多个候选回答,选择最终答案置信度最高的路径。推理路径的置信度通常高于直接猜测(例如统计场景中的苹果数量)。
- 通过长度而非深度扩展:训练模型生成更长序列(O(T)个标记)处理串行问题,无需增加模型规模即可提升能力。
- 聚合优于单次输出:生成并整合多个回答(如多数投票法)优于单一输出;结合相似问题检索与推理的表现优于纯推理。
- 实例:Gemini 2.0的“思考模式”通过优先运算(如45×45=2025)解决用1-10数字组合出2025的谜题。
关键技术
- 提示工程:使用少量示例或“让我们逐步思考”等短语引导中间步骤生成(如数学应用题)。零样本方法有效但稳定性较低。
- 监督微调:基于人工标注的分步解决方案训练,提高推理路径的生成概率。
- 自我改进:从模型输出中筛选正确的推理路径生成训练数据。
- 强化学习微调:迭代奖励完整正确答案(推理+结果)并惩罚错误回答,需配合验证器。在可验证任务中泛化能力最强;感谢Jonathan Lai等团队成员贡献。
- 自我一致性:采样多条推理路径后聚合结果(如最高频答案)。开放任务的通用变体允许模型自主选择路径。
- 检索+推理:引入相关示例辅助推理(如调用距离公式求解面积问题)。
- 其他增强技术:“退一步思考”实现抽象化;边际修正改善概率解码偏差。
局限性
- 提示工程:简单但脆弱,需任务特定示例;通用提示效果欠佳。
- 监督微调:对分布外问题泛化能力不足(例如针对“strawberry”字母计数的训练无法应对新词)。
- 强化学习:依赖可靠验证器,但并非所有任务都具备(如创意写作)。
- 通用挑战:LLM是概率预测器,贪婪解码易选择流畅但错误的答案。聚合方法有助于可验证任务,但无法解决不可验证领域的问题。
- 解码偏差:即使强模型也可能在无干预情况下未能将推理路径置于最高优先级。
未来方向
- 突破基准测试局限,拓展至现实应用(如缺乏完美指标的翻译优化任务)。
- 扩展聚合与检索机制的规模效应。
- 改进解码策略(如边际优化),增强概率输出与正确性的对齐。
- 构建跨会话“记忆”成功推理路径的系统。
本讲座强调强化学习微调是当前核心技术,并指出应将推理视为可扩展的生成问题。