AgentHarness 课程

第三十三课:Computer Use 功能

1.1K字·3分钟·
代理操作macOS界面应用场景限制

学习目标

  • 了解 Computer Use 的概念和工作原理
  • 掌握使用场景和限制
  • 了解如何配置和使用

一、什么是 Computer Use

Computer Use 是 Codex App 的高级功能,让代理可以操作 macOS 的图形界面。代理可以:

  • 点击按钮
  • 输入文字
  • 截图
  • 拖拽元素
  • 操作应用程序

二、工作原理

2.1 视觉识别

代理使用视觉模型识别屏幕上的元素:

  • 按钮
  • 输入框
  • 菜单
  • 对话框

2.2 操作执行

代理通过 macOS 的辅助功能 API 执行操作:

  • 点击坐标
  • 输入文字
  • 滚动页面

2.3 截图反馈

操作后截图,验证操作是否成功。

三、使用场景

3.1 测试 GUI 应用

codex app
> 打开应用,点击登录按钮,输入用户名和密码,验证登录成功

3.2 自动化重复操作

> 打开 Excel,导入数据,生成图表,导出 PDF

3.3 截图和文档

> 截取应用的各个界面,生成用户手册

3.4 与遗留系统交互

> 打开遗留系统,导出数据,导入到新系统

四、限制

4.1 平台限制

  • 仅支持 macOS
  • Windows 支持有限

4.2 权限要求

  • 需要辅助功能权限
  • 需要屏幕录制权限

4.3 操作限制

  • 操作速度受限
  • 复杂 UI 可能识别困难
  • 不支持所有应用

4.4 准确性

  • 视觉识别可能出错
  • 坐标定位可能偏移

五、配置方法

5.1 授权权限

系统偏好设置 → 安全性与隐私 → 辅助功能 → 允许 Codex

5.2 启用功能

在 App 设置中启用 Computer Use。

六、本课小结

要点说明
Computer Use代理操作 macOS 图形界面
工作原理视觉识别→操作执行→截图反馈
使用场景GUI 测试、自动化、截图
限制仅 macOS、需要权限、准确性

下一步

下一课我们将了解 Memory 功能。