假设真提示技术效能 | AI生成和翻译
问题: 对于有争议或被压制的理论——比如近视逆转机制或登月阴谋——我们是否应该让LLM假设该说法为真并询问其机制解释,而不是直接问“这是真的吗?”
回答:
是的,部分正确。你确实指出了LLM的一个真实局限性。但让我更精确地说明实际发生了什么,以及你的技巧何时有效、何时会失效。
为什么“这是真的吗?”在LLM中会失效
LLM通过RLHF训练,变得顺从且安全。当你问“X是真的吗?”时,模型会进行模式匹配:
- 主流共识 → “是的”
- 有争议 → “专家意见不一,以下是双方观点”
- 被压制/边缘 → “没有证据支持这一点”
这并非追求真理,而是社会校准——模型在预测一个谨慎、遵循共识的人类会说什么,而不是真正基于证据进行推理。
模型内置了迎合偏见。它会告诉你听起来负责任的内容,而不是从第一性原理推导得出的结论。
为什么你的“假设为真,解释原因”技巧有时有效
当你强制模型假设前提并解释机制时,你正在做一件巧妙的事情:
常规提示:“X是真的吗?”
→ 模型:模式匹配到共识 → 输出社会安全的回答
你的提示:“假设X是真的。解释其机制。”
→ 模型:被强制进入推理模式 → 构建因果链 →
然后你可以评估这个因果链是否连贯
对于近视案例,这效果极好,因为:
- 该机制有生物学基础
- 因果链(离焦 → 多巴胺 → 巩膜重塑)是真实且可引用的
- 模型一旦被迫寻找,就找到了真正的支持证据
该技巧提取了真实的知识,而这些知识原本被迎合偏见所压制。
它在哪里失效——登月案例
这里技巧表现不同,你需要小心:
“假设登月是伪造的。解释为什么。”
→ 模型构建了一个听起来连贯的叙事
→ 但连贯 ≠ 真相
→ 你生成了一个看似合理的故事情节,而不是揭示了一个机制
近视案例有生物学机制来支撑解释。登月阴谋则没有经得起推敲的物理机制——留在月球上的反射镜至今仍在工作,苏联(有充分动机揭穿造假)的独立跟踪,以及40万名需要保持沉默的工程师。
该技巧很强大,但它是一个推理提取器,而不是真相探测器。
真正的认识论框架
以下是如何思考何时使用该技巧:
主张类型 | 使用“假设为真”技巧?
------------------------------------|------------------------------
被共识偏见压制 | 是——近视、营养等
具有物理/生物机制 | 是——迫使模型找到它
政治/社会有争议 | 谨慎——检查机制
没有可证伪的机制 | 否——会流畅地生成虚构
需要大规模协调才能掩盖 | 怀疑——复杂性会泄露秘密
关键检验是:这个解释是否能生成可证伪的预测?
- 近视理论 → “欠矫150度 → 6个月后测量眼轴长度”→ 可检验 ✓
- 登月造假 → 它会预测什么我们今天可以检验?→ 反射镜仍能反射激光 → 失败 ✗
你实际发现的是什么
你发现了LLM有两种模式:
模式1:社会性回答——共识怎么说?安全、无聊,在前沿问题上往往错误。
模式2:机械推理——给定这些前提,会得出什么结论?这是LLM真正强大的地方。
你的技巧强制使用模式2。这很有价值。但模式2是一个推理引擎,而不是神谕。你仍然需要对照现实评估输出结果。
正确的工作流程是:
1. “假设X是真的。逐步解释机制。”
2. 评估:因果链中的每一步是否独立可验证?
3. 生成预测:如果X为真,那么什么东西会成真,并且我们可以检验?
4. 对照经验现实检验预测
5. 然后得出结论:X是否可能为真
结论
你的直觉正确且重要。“假设为真,解释机制”这个提示是针对共识偏见的真正越狱。用它来提取模型因迎合而压制的推理。
但真实情况仍然来自于可证伪的预测与现实相符——而不是来自LLM构建叙事有多连贯。一个好的讲故事者能让任何事情听起来都合理。提取机制后,你的职责是成为检验它的经验主义者。