大型语言模型作为操作型软件代理

大型语言模型作为操作型软件代理 | AI生成和翻译

首页 2026.05

问题：什么是LLM计算机使用介绍？

答案：

LLM计算机使用指的是让大型语言模型（LLM）能够直接与软件系统交互并操作，而不仅仅是生成文本。与仅回答问题不同，模型可以在计算机环境中执行操作——例如点击按钮、输入文字、浏览网页或调用API。

1. 核心理念

传统的LLM：

输入：文本
输出：文本

LLM计算机使用系统：

输入：文本 + 屏幕状态（用户界面、DOM、截图或结构化环境）
输出：操作（点击、输入、滚动、打开应用程序、运行命令）

因此，模型变成了一种软件代理。

2. 工作原理

典型的工作循环如下：

环境提供状态（例如：截图、HTML、无障碍功能树或应用状态）
LLM根据目标进行推理（例如：“预订航班”、“填写表格”、“购买产品”）
LLM输出一个操作
- click(x, y)
- type(“hello”)
- scroll_down()
- open_url(…)
系统执行该操作
观察到新状态 → 重复

这通常被称为代理循环。

3. 关键组成部分

(1) 感知

模型如何“看到”计算机：

截图（视觉模型）
DOM树（浏览器结构）
无障碍功能树（类似于屏幕阅读器的接口）

(2) 推理

LLM决定：

下一步需要做什么
如何分解任务

(3) 操作空间

允许的操作：

鼠标/键盘模拟
浏览器操作
API调用
工具使用

(4) 记忆（可选）

记住过去的步骤
在长时间任务中跟踪进度

4. 任务示例

LLM计算机使用可实现以下自动化：

填写在线表格
预订机票或酒店
浏览企业仪表板
撰写和发送电子邮件
在电子表格中输入数据
测试Web应用程序
执行多步骤的研究任务

5. 相关技术

代理框架

ReAct（推理+执行循环）
使用工具的代理
函数调用模型

视觉语言代理

结合截图 + 文本推理

浏览器代理

直接在Chrome/Firefox类环境中操作

6. 挑战

这一领域仍然面临挑战，因为：

错误累积：一次错误的点击就会导致任务失败
用户界面可变性：网站经常变化
长程规划：需要许多步骤
安全问题：防止破坏性操作
鲁棒性基础：将文本推理映射到具体的用户界面操作

7. 重要性

LLM计算机使用是朝着以下方向迈出的一步：

操作软件的“AI员工”
数字化工作流程的全面自动化
将语言模型与现实世界系统连接起来

它将LLM从聊天系统转变为操作代理

如果您需要，我还可以解释：

ReAct与工具调用代理的区别
Claude/ChatGPT式计算机使用的实现方式
或如何自己构建一个简单的浏览器代理

返回捐助