第三十三课:Computer Use 功能
1.1K字·3分钟·
代理操作macOS界面应用场景限制
学习目标
- 了解 Computer Use 的概念和工作原理
- 掌握使用场景和限制
- 了解如何配置和使用
一、什么是 Computer Use
Computer Use 是 Codex App 的高级功能,让代理可以操作 macOS 的图形界面。代理可以:
- 点击按钮
- 输入文字
- 截图
- 拖拽元素
- 操作应用程序
二、工作原理
2.1 视觉识别
代理使用视觉模型识别屏幕上的元素:
- 按钮
- 输入框
- 菜单
- 对话框
2.2 操作执行
代理通过 macOS 的辅助功能 API 执行操作:
- 点击坐标
- 输入文字
- 滚动页面
2.3 截图反馈
操作后截图,验证操作是否成功。
三、使用场景
3.1 测试 GUI 应用
codex app
> 打开应用,点击登录按钮,输入用户名和密码,验证登录成功
3.2 自动化重复操作
> 打开 Excel,导入数据,生成图表,导出 PDF
3.3 截图和文档
> 截取应用的各个界面,生成用户手册
3.4 与遗留系统交互
> 打开遗留系统,导出数据,导入到新系统
四、限制
4.1 平台限制
- 仅支持 macOS
- Windows 支持有限
4.2 权限要求
- 需要辅助功能权限
- 需要屏幕录制权限
4.3 操作限制
- 操作速度受限
- 复杂 UI 可能识别困难
- 不支持所有应用
4.4 准确性
- 视觉识别可能出错
- 坐标定位可能偏移
五、配置方法
5.1 授权权限
系统偏好设置 → 安全性与隐私 → 辅助功能 → 允许 Codex
5.2 启用功能
在 App 设置中启用 Computer Use。
六、本课小结
| 要点 | 说明 |
|---|---|
| Computer Use | 代理操作 macOS 图形界面 |
| 工作原理 | 视觉识别→操作执行→截图反馈 |
| 使用场景 | GUI 测试、自动化、截图 |
| 限制 | 仅 macOS、需要权限、准确性 |
下一步
下一课我们将了解 Memory 功能。