计算机强化学习框架在桌面自动化代理中的应用 | AI生成和翻译
“ComputerRL”论文是近期一项研究,题为《ComputerRL:面向计算机使用智能体的端到端在线强化学习规模化实现》(arXiv)。
以下是核心思路与贡献的精要概述:
ComputerRL是什么?
- 这是一个旨在让自主智能体像人类一样与桌面环境(应用程序、图形界面、API)交互的框架——包括点击、输入、使用菜单等操作,同时在可能时也支持API调用。(arXiv)
- 其核心思想是将基于图形界面的交互(适用于无API或更符合人类操作习惯的场景)与程序化API调用(更精准、稳定、高效)结合,形成所谓的API-图形界面融合范式。(arXiv)
创新点与解决的问题
- 训练用于桌面/图形界面任务的强化学习智能体时,主要挑战在于启动大量虚拟机/长时间模拟环境导致的低效与不稳定。ComputerRL通过并行运行多个桌面环境实现规模化处理。(arXiv)
- 长期强化学习训练易出现熵崩溃(策略过早陷入确定性模式,削弱探索能力)。他们提出名为熵脉冲的训练策略,通过强化学习阶段与监督微调交替进行,保持策略的探索活力。(arXiv)
实验与成果
- 研究在GLM-4-9B-0414和Qwen2.5-14B等开源模型上进行了验证。(arXiv)
- 评估基准采用OSWorld,该基准在类Ubuntu桌面环境中测试智能体性能。(arXiv)
- 其基于GLM-4-9B-0414的智能体“AutoGLM-OS-9B”在桌面自动化任务中实现了最新准确率(约48.1%)。(arXiv)
如果您有兴趣,我可以为您梳理这项研究与AgentBench或Anthropic智能体系统(在稳定性、每秒事务处理能力等维度)的对比概要。