大型语言模型作为操作型软件代理 | AI生成和翻译

Home 2026.05

问题:什么是LLM计算机使用介绍?

答案:

LLM计算机使用指的是让大型语言模型(LLM)能够直接与软件系统交互并操作,而不仅仅是生成文本。与仅回答问题不同,模型可以在计算机环境中执行操作——例如点击按钮、输入文字、浏览网页或调用API。


1. 核心理念

传统的LLM:

LLM计算机使用系统:

因此,模型变成了一种软件代理


2. 工作原理

典型的工作循环如下:

  1. 环境提供状态 (例如:截图、HTML、无障碍功能树或应用状态)

  2. LLM根据目标进行推理 (例如:“预订航班”、“填写表格”、“购买产品”)

  3. LLM输出一个操作

    • click(x, y)
    • type(“hello”)
    • scroll_down()
    • open_url(…)
  4. 系统执行该操作

  5. 观察到新状态 → 重复

这通常被称为代理循环


3. 关键组成部分

(1) 感知

模型如何“看到”计算机:

(2) 推理

LLM决定:

(3) 操作空间

允许的操作:

(4) 记忆(可选)


4. 任务示例

LLM计算机使用可实现以下自动化:


5. 相关技术

代理框架

视觉语言代理

浏览器代理


6. 挑战

这一领域仍然面临挑战,因为:


7. 重要性

LLM计算机使用是朝着以下方向迈出的一步:

它将LLM从聊天系统转变为操作代理


如果您需要,我还可以解释:


Back Donate