通过实证测试优化提示 | AI生成和翻译

Home 2026.03

问题:Claude Code 团队如何开发和完善其 system prompts 和 skills——他们是否使用添加/移除 prompt 部分并运行 interference tests 来比较 prompt 是否有可衡量效果的方法?

回答:

是的,你的直觉基本正确。Claude Code 团队使用严谨的、迭代的、实证方法来开发和完善 system prompts 和 skills——这个过程远超简单的猜测。下面是其工作原理的全面分解:


1. 早期阶段:快速反馈迭代

Claude Code 从基于 Anthropic 员工和外部用户的反馈进行快速迭代开始。在这个早期阶段,团队会添加或更改 prompt 内容,在内部部署(称为 “dogfooding”),并观察行为上的定性差异——正是你描述的非正式“添加/移除一个 prompt 并查看是否有影响”的方法。


2. 添加正式 Evals(评估)

后来,他们添加了 evals——首先针对狭窄领域如 concision 和 file edits,然后针对更复杂的如 over-engineering。这些 evals 有助于识别问题、指导改进,并聚焦研究-产品协作。

Evals 本质上是自动化测试套件,用于测量模型是否按预期行为。可以在不部署到生产环境或影响真实用户的情况下,对代理运行数千个任务进行自动化评估。


3. A/B 测试和生产监控

结合生产监控、A/B 测试、用户研究等,evals 提供了信号,以继续改进 Claude Code 并实现规模化。

这就是你提到的“interference test”概念:两个版本的 prompt 并行运行,团队比较结果,以确定特定 prompt 子句是否有真实的可衡量效果,还是只是噪声。


4. 模块化 System Prompt 架构

Claude Code 的 system prompts 不是一个巨大的单体 prompt,而是高度模块化。它们包括独立的 prompt 部分,如“Doing tasks (avoid over-engineering)”、“Doing tasks (no premature abstractions)”、“Doing tasks (no compatibility hacks)”和“Doing tasks (no time estimates)”——每个部分独立范围并计算 token 数。

这种模块化设计使团队能够隔离单个 prompt 部分,并测试移除、添加或改写它们是否影响模型行为——这本质上是受控的 ablation testing。


5. Skills:“Skill Creator”和 Evals 管道

对于 skills(扩展 Claude Code 能力的模块化 SKILL.md 文件),Anthropic 通过 Claude Code Skills 2.0(2026 年 3 月 3 日更新)进一步正式化了开发方法。

更新的框架包括:开发测试用例和 benchmarks 来测量 skill 对任务性能的影响;迭代完善 skill 描述以提高触发准确性和可靠性;并使用训练和测试数据集进行精确调整。

更新的 skill-creator 现在由四个并行工作的可组合子代理操作:执行 skill 对 eval prompts 的 executor;评估输出是否符合定义预期的 grader;对 skill 版本进行盲 A/B 比较的 comparator;以及揭示聚合统计可能隐藏模式的 analyzer。


6. Benchmark 模式:“这个 Skill/Prompt 真的有帮助吗?”

Benchmark 模式在整个 eval 集上运行标准化评估并记录指标。Benchmark 比较 skill 激活时的性能与无 skill(baseline)时的性能,并并排显示,从而提供客观数据来回答根本问题:“这个 skill 真的改善了事情吗?”

还有一个称为 outgrowth detection 的概念:如果基础模型即使不加载 skill 也能通过 evals,系统会告诉你“丢弃这个 skill;模型已经足够好了”。这防止了死 prompt 权重随时间积累。


7. 通过迭代算法的 Prompt 优化

Prompt 优化即使对顶级编码代理也能显著改进——仅优化 Claude Code 的 system prompt 就在通用编码性能上带来了 5%+ 的提升,在专用于单个 repository 时提升更大。该过程使用 benchmark 任务(如 SWE-Bench)的 train/test splits 来验证 prompt 更改是否泛化,而非仅 overfit。


总结

Method Description
Fast feedback / dogfooding 早期阶段的内部使用和用户反馈
Eval-driven development 针对特定行为的自动化测试套件
A/B testing 生产环境中 prompt 版本的并排比较
Ablation / modular prompts 隔离并测试单个 prompt 部分
Benchmark mode 激活 vs. baseline 的指标比较
Outgrowth detection 识别并移除模型不再需要的 prompts

所以是的——你的描述是准确的。团队确实会添加和移除 prompt 子句,并运行“interference”风格的比较,但是在规模化基础上,并使用正式的评估基础设施,使结果具有统计意义而非轶事性。

参考文献:


Back Donate