MeMo的小模型记忆方法

MeMo的小模型记忆方法 | AI生成和翻译

首页 2026.05

问题： MeMo论文（Memory as a Model）如何解决RAG、微调和潜在记忆方法的核心问题？它的小模型方法是什么？

回答：

你问的是MeMo（Memory as a Model），这是一篇非常新的论文（arXiv 2605.15156，2026年5月），来自新加坡国立大学/MIT CSAIL/A*STAR。这与MemoRAG（2409.05591）不同——让我准确说明。

论文开篇清晰地将现有方法划分为三类：

非参数化方法在推理时通过词汇、稠密或基于图的检索器从外部存储中检索相关信息，然后通过上下文学习将其整合。然而，这些方法受限于有限的上下文窗口，当相关信息分布在多个文档中时，难以综合跨文档的关系。

具体来说：RAG系统对噪声高度敏感——不相关或检索效果差的段落通常会降低模型的最终响应质量。处理数千个检索到的token也会产生大量的计算开销和推理延迟。

更新现代大型语言模型成本高昂，且对于隐藏在API背后的专有闭源模型来说通常不可行。微调还容易导致灾难性遗忘——迫使模型适应新的企业数据往往会侵蚀其先前获得的推理能力和安全护栏。

潜在记忆方法将知识压缩为软token或其他模型特定的表示，但存在表示耦合问题：记忆与产生它们的模型紧密绑定——因此，如果你升级或更换基础LLM，记忆就会变得毫无用处。

MeMo并非从向量数据库检索（RAG）、修改LLM权重（微调）或将知识压缩为软token（潜在记忆），而是训练一个小型、专用的记忆模型，以参数化方式编码语料库知识——但该模型是一个独立模型，而非主LLM的一部分。

MeMo是一个模块化框架，它将新知识编码到一个专用的记忆模型中，同时保持LLM参数不变。在推理时，冻结的执行模型通过结构化的多轮协议查询记忆模型来回答复杂的用户查询：它将输入分解为更简单的、有针对性的子查询，从记忆模型中获取中间响应，并基于这些响应进行推理以生成最终答案。

因此流程如下：

用户查询
    → 执行LLM将问题分解为子查询
    → 记忆模型回答子查询（像一个小型专家）
    → 执行LLM综合生成最终答案

记忆模型很小（消融实验测试了不同规模），在目标语料库上训练，并通过自然语言进行查询——而非嵌入或KV查找。

在记忆模型训练过程中，一个冻结的生成模型通过事实提取、整合、验证、实体呈现和跨文档综合，将目标语料库转换为反射式问答数据集，然后用于训练专用的记忆模型。

这是一个合成数据流程——生成器（Qwen2.5-32B）读取你的语料库，生成一个包含跨文档推理的丰富问答训练集。然后，一个小模型在该数据集上进行监督微调。主LLM从未被触及。

这对于你银行AI工程的背景来说，是真正巧妙的部分。添加新语料库无需从头重新训练：

新语料库通过模型合并进行整合，无需完全重新训练。使用TIES合并（ρ=0.3），在K=2个语料库时可节省33%的计算量，在K=10个语料库时比完全重新训练节省5.5倍计算量。

你可以为每个领域/语料库训练一个记忆模型，然后通过TIES合并将它们合并为一个。计算量随知识领域数量呈次线性增长。

对于你银行的AI工作——你可能无法微调专有LLM，并且需要注入领域知识（监管文档、内部政策、财务数据）——MeMo的方法直接适用：

记忆模型可能处于1–8B参数范围内（论文中的消融实验涵盖此范围），这意味着在你的RTX 4070或MI300X上训练成本很低，并且除了额外的模型调用外，不会增加推理成本。

快速区分：MemoRAG（2409.05591）也使用小型记忆模型，但它利用KV缓存压缩+RLGF来存储全局上下文，并为标准RAG流水线生成检索线索。MeMo（2605.15156）是更新、更简洁的设计，完全消除了检索步骤——记忆模型就是检索系统，通过语言进行查询。

参考文献：

返回捐助