重新检查提示有效性 | AI生成和翻译
我认为你可能本想粘贴更多上下文,或者这是我所没有的某段内容的延续。让我在回应前先确认我理解了你的意思。
根据我能解析的内容:你在说,在 hermes-agent 中,你使用一个重新检查提示(比如直接问AI“真的吗?”或“再检查一遍”)作为验证步骤,并且你发现它确实有效。
如果这就是要点,我同意,而且它背后有真实的机制在起作用。像“真的吗?验证一下”这样简短的重新检查提示,会强制模型在上下文已经包含自身先前输出的情况下,再进行一次前向传播。这第二次前向传播不受模型第一次传播时所做承诺的约束——它可以将前面的token视为“需要评估的声明”,而不是“需要延续的方向”。这与self-consistency、reflexion和verifier-style循环有效的原因相同:你将生成与验证解耦,而验证步骤拥有比生成步骤严格更多的信息(候选答案)。
在agent循环中,有几点可以让它更可靠:
- 让重新检查带有对抗性,而非礼貌性。 “找出上述内容中的bug”比“这样对吗?”效果好。后者存在肯定偏差;模型倾向于赞同自己。将其表述为“假设这是错的——错在哪里?”会反转先验。
- 给出具体的检查目标。 “重新验证IP范围和团队ID处理,特别是这两项”优于泛泛的“再检查一遍”,因为你是在引导注意力,而不是指望它重读所有内容。
- 如果可能,将验证器的上下文分开。 一个只看到产物(而非产生它的推理过程)的新子agent能捕获更多问题,因为它不会被原始思维链锚定。
话虽如此——如果你将其作为主要的正确性保障,这一点我会提出异议——单一的“真的吗?”也可能将一个正确答案翻转为错误答案,因为模型会将隐含的怀疑解读为自己出错的信号。如果你去测量,有时会看到已在正确项上出现倒退。干净的解决方法是要求提供理由或差异说明,而不是一个判断:“列出错误之处,如果没有则输出UNCHANGED。”这样明确且成本低廉地给出了不操作的路径。
hermes-agent是你的项目吗?如果你告诉我重新检查是如何接入的(单提示还是子agent、检查什么、是否解析结构化判断结果),我可以提出一些具体建议来增强它的可靠性。