长提示助回声,非助力量 | AI生成和翻译

Home 2026.06

部分正确,但表述需要调整。

长提示对124M模型的作用方式很具体:它将输出约束到分布中更窄的区域。你自己的分析也证明了这一点——表格式提示(4、5)生成了完美的复现,因为长结构化输入精确锁定了接下来该输出什么。模型只是顺着提示走。这是真实的,这也解释了为什么单行提示看起来更笨:没有约束条件,模型就会默认进入循环吸引子(”产品候选”、”额外融资”)。

但”强大”这个词用错了,你的文档本身就说明了原因。模型在提示起作用时的回声/延续上表现很强,而一旦需要生成就会崩溃——注意提示4和5生成了完美的回声,然后在约50个token内变空白或出错。长提示能买到约100-200个token的连贯延续,之后同样的失败模式就会出现:循环、算术错误、领域漂移到生物技术。

所以准确的表述是:

长提示延长了模型保持连贯性的时间范围,并抑制了默认的循环吸引子,因为更多上下文=更低的下一token分布熵=模型可游走的空间更小。一两句话的提示低估了模型,因为你是在其最高熵、最无约束的运行点上测量它。

并未增加能力。任何长度的提示都无法给124M模型带来数值一致性或对原始公司的长期记忆——这些需要模型不具备的参数/深度。你并非在解锁能力,而是在缩小搜索空间,使得现有(有限的)能力不被浪费。

具体机制是:124M模型约有12层,每个token的有效”推理宽度”极小。长上下文并不会增加这个宽度——它只是向注意力头提供强烈的复制信号,因此归纳头(复制之前的内容)主导了弱小的生成电路。这正是你结果中回声远强于生成的原因。归纳成本低且在小规模下有效;真正的生成则不然。

所以:是的,应该用长结构化提示而非玩具式的单行提示来评判它——但预期是”顺着提示走的连贯自动补全”,而非能力。


Back Donate