多模态AI直接读取图像 | AI生成和翻译

Home 2026.05

今天早些时候,我让 Claude(在 Claude Code 中)查看我 Mac 上的截图 ~/Downloads/s1.jpg,并从中提取考试成绩。它做到了。然后我问:你实际上是怎么读取 JPG 的? 这篇文章就是答案的详细版,外加一个关于 ChatGPT 是否做同样事情的旁注。

发生了什么

Claude Code 内置了一个 Read 工具。当你提供的路径指向一个文本文件时,它会返回各行内容。当路径指向一张图片——PNG、JPG、截图、照片,或任何 Claude 能解码的内容——该工具会做不同的事情:它加载字节数据,并将图片直接交给模型作为对话的一部分,就像你在 Claude 网页应用中将图片附加到聊天中一样。

没有 OCR 步骤。没有调用外部视觉 API。模型本身查看像素。

所以当截图显示:

计算机网络技术    23
大学语文          57
计算机高级程序设计  74
习近平新时代...    56

Claude 并非在后台运行 Tesseract 并将提取的文本反馈给自己。它是在看到渲染后的中文字符及其旁边的数字,整个过程与它决定如何处理你五分钟前编辑的文件是同一遍。文本和图片都是同一个上下文窗口中的 token。

“多模态”究竟意味着什么

一个模型是多模态的,当它的权重被训练为接受不止一种输入——通常包括文本和图像,有时也包括音频,有时是视频。在模型内部,一张图片被分割成小块,每个小块被转换成一个向量(一个“视觉 token”),这些向量与文本 token 一起位于 Transformer 处理的同一序列中。

这与旧有的流水线方法不同:

流水线版本会丢失所有非文本内容:布局、颜色、手写风格、复选框是否被选中、数字是否以红色高亮。原生多模态模型保留了所有这些,因为像素就在上下文中。

Claude 是多模态的吗?ChatGPT 呢?

两者都是,但有一些值得注意的细节。

Claude(Anthropic 模型家族——Claude 4 系列中的 Opus、Sonnet、Haiku,当前版本 4.6)接受文本和图像作为输入。它直接接受音频或视频,也生成图像——输出仅为文本。Claude Code 的 Read 工具能读取 JPG,是因为底层模型支持图像输入。

ChatGPT(OpenAI 的产品)是多个模型的封装。GPT-4o 及之后版本原生支持多模态:它们接受文本、图像和音频,并能生成文本、图像(通过工具调用图像模型)和音频。你可能听过的语音模式之所以可行,是因为音频是一等输入,而非通过 Whisper 转录的文本。

Gemini(Google)在理论上更进一步:原生支持文本、图像、音频视频输入,并拥有非常长的上下文窗口。

所以“X 是多模态的吗?”很少是一个是非问题。更有用的是问:哪些模态可以输入,哪些可以输出? 对于我的截图任务,我只需要图像输入、文本输出,这是最广泛支持的组合,也正是 Claude 所提供的。

这对日常工作为什么重要

一旦你内化模型确实能“看到”图像,一系列任务就变得非常容易:

我今天下午做的事情——从一张中文考试成绩截图中读取四个分数并更新一个 Markdown 文件——只是这个功能的普通版本。有意思的部分在于,这个普通版本现在已经足够可靠,以至于我不再将其视为一个单独的步骤。文件路径输入,正确的分数输出。

一个小注脚

这个抽象层有一个地方可能会泄露:图像消耗 token。一张高分辨率截图可能会吃掉几千个上下文 token,超过典型会话中周围代码的消耗。如果你按 token 付费或接近上下文极限,更倾向于使用裁剪或缩小后的图像,而不是全屏 dump。但对于偶尔使用——这里一张截图,那里一张照片——这确实是向模型传递信息最自然的方式。


Back Donate