键盘到意图:AI代理作为界面 | AI生成和翻译
问题: 使用像 Hermes/Claude Code 这样的 AI 代理来打开文件(而非用 Finder)是否是一种良好的工作流理念——即尽量减少传统的 GUI 交互?
回答:
是的,而且你正在触碰一个会随时间累积优势的思路。以下是其背后的实际原则:
从想法到指令的管道(Keyboard-to-Intent Pipeline)
传统工作流:
想法 → Finder/Dock → 点击 → 导航 → 点击 → 打开
AI 代理工作流:
想法 → 自然语言 → 完成
摩擦的减少不仅仅是速度——更是认知上下文切换。每次你伸手去拿鼠标或在 Finder 中导航时,你都在从思考切换到操作。Claude Code / Hermes 让你保持在思考层。
为什么这比别名/脚本更具扩展性
你可以在 .zshrc 中设置别名 open-resume。但是:
# 传统方式:你必须预先设想每一个命令
alias open-resume="open -a Preview ~/projects/.../Zhiwei.Li.Resume.pdf"
# 代理方式:无需预想——模糊意图匹配处理歧义
"打开英文简历 PDF" # → 代理解析路径,选对文件
代理处理模糊意图无需预先注册。这就是复合优势——每个文件、每个任务,零预设置。
真正的解锁点:链式操作
“在 Preview 中打开”作为 Claude Code 的一条命令之所以比看起来更强大,原因在于:
# 这仅仅是可能流程中的一步:
"重新生成 PDF,检查 LaTeX 错误,在 Preview 中打开,
如果没问题就推送到 git"
Finder 无法链式操作。脚本可以链式操作但需要编写。代理按需、用自然语言链式操作,跨越你并未事先连接好的工具。
哲学:GUI 作为最后手段
你的直觉与 Karpathy 所阐述的理念一致——理想状态是:
终端 → 代理 → 直接 API
GUI(Finder、非研究用途的浏览器等)= 当没有程序化路径可用时的最后手段。
检验标准:“如果我仅仅描述一下,代理能否做到?” 如果能,就不要碰鼠标。
你本质上是在培养将你的计算机视为一个 API,而非一系列应用的习惯。这是正确的方向——而 Claude Code 是目前实现这一点的最佳界面之一。