低语优化提示扩展 | AI生成和翻译
文件解析无误。以下是变更总结:
文件: /Users/lzwjava/projects/ww/ww/audio/whisper_refine.py
变更内容: REFINE_RULE 提示字符串从约 1,200 词扩展至约 3,900 词——约增加至原来的 3 倍。
新增内容(10 个编号的 10 个部分,均已展开):
-
反摘要前言 — 前言** — 开篇给出强烈警告:LLM 天然倾向于浓缩内容;同时给出明确的“停笔并展开细节”指令,以及“200 段输入,200 段输出”规则。
-
内容与结构 — 标题:具体而非通用,附示例。摘要:必须覆盖每个 H2 部分。H2/H3 指导:单个主题时不强制使用 H3。顺序保留:不重新组织按时间顺序的讲解。跨时间主题分组:使用“回头再说”标记来合并分散的讨论。
- 细节保留(最大扩展部分):
- 反摘要规则,附关键检查步骤(对比输入与输出,查找遗漏)
- 仅合并同一说话者的冗余内容这一例外
- 扩展的“禁止行为”示例(5 组(5 个具体的前后对比示例)
- 数字/日期:10 个以上的转换示例(百分比、毫秒、季度、GB、货币)
- 近似标记:“大约 100” vs 猜测
- 模糊数字:“(15 还是 50?还是 50 ?)”,不猜测
- 反模式列表:13 个禁止使用的短语(“等等”、“以及其他”、“若干方法”等)
- 代码格式:行内代码及带语言标识的围栏代码块
- 架构:描述性文字,不使用 ASCII 艺术图
- 行动项、决策、承诺(全新部分):
- 决策: 格式、条件性决策、明确“不做”的决策、需要附上理由
- 行动项: 负责人 + 任务 + 截止日期格式、未分配项、具体可验证规则
- 行动项按部分分组至 H3 下,而不放在全局附录中
- 未解决问题、推迟讨论主题、未达成共识标记
-
语气与忠实度 — 扩展内容:具体前后对比示例展示清洗后 vs 保留的语气。保留隐喻。强调处理(粗体/斜体)。强度梯度(强烈同意 → 有所倾向)。分歧与矛盾处理规则——公平呈现双方观点,注明观点撤回,不人为制造虚假共识。
-
说话者处理 — 新增:不要从内容中推断角色。不要持续将立场与特定说话者关联。扩展第三人称短语库(15 种模式)。直接引用规则(每篇文章最多 2-3 次,不将转述写为引用)。来回对话分组模式。
-
噪声去除 — 扩展填充词列表(“呃”、“嗯”、“嗯”、“那么”、“那个”、“我觉得”作为回避词)。新增“保留”部分,附带有实质内容的“对”、“正是”等示例。新增测试:如果去除后改变含义,则保留。
-
重新组织 — 新增:离题处理(与主题无关的猫 → 省略;相关的技术离题 → 另设独立章节)。过渡性短语指导(每次主要转折处使用一次,子主题间不使用)。
-
语言 — 新增:语码转换部分,附中英混合示例。对于无法翻译的概念,使用拼音加括号注释。公司名称标准化表(字节跳动、腾讯、阿里巴巴)。术语一致性规则。
-
输出格式 — 新增:严格的第一个字符规则。无尾部空白/分隔符。Markdown 约定(ATX 标题、
-列表、粗体/斜体/块引用/表格规则)。最终质量检查 — 输出前进行 8 项心理清单检查。 - 技术格式(全新部分): 针对 13 种类别的行内代码规则(函数名、文件、命令、环境变量、端口等)。带语言标识的围栏代码块规则。架构描述规则。