AgentHarness 课程
Hermes 专题/课程概述

第一课:Codex 产品全景

CLI/App/Web/IDE四形态发展历程核心价值主张

本课程将全面介绍 OpenAI Codex —— 从产品定义、四种产品形态、发展历程到核心价值主张,帮助你在深入学习之前建立完整的认知地图。


一、什么是 OpenAI Codex

1.1 定义

OpenAI Codex 是 OpenAI 推出的 AI 编码智能体(Coding Agent)。它不仅仅是一个代码补全工具或聊天机器人,而是一个能够理解上下文、自主规划、读写文件、执行终端命令并完成端到端软件工程任务的智能体系统。

与传统的代码辅助工具(如早期的 GitHub Copilot 补全)不同,Codex 的核心理念是:把开发者从"写每一行代码"的角色转变为"指导和审查 AI 工作"的角色。你描述意图,Codex 负责实现——包括读取代码库、编写代码、运行测试、修复 bug 等整个开发流程。

1.2 技术栈概览

Codex 的技术栈可以分为以下几个层次:

  • 模型层:默认使用 codex-mini-latest 模型(基于 o4-mini 微调优化),同时支持 GPT-5 Codex 系列模型(GPT-5-Codex、GPT-5-Codex-Mini 等)
  • 运行时层:CLI 版本基于 Rust 重写(codex-rs),提供高性能的本地执行环境
  • 沙箱层:在 Docker 容器或本地沙箱中执行代码,确保安全隔离
  • 集成层:支持 MCP(Model Context Protocol)协议,可接入各种外部工具和数据源

1.3 开源与社区

Codex CLI 是一个 完全开源 的项目:

  • GitHub 仓库github.com/openai/codex
  • Star 数:截至 2026 年 6 月已超过 94.1K Stars,是 GitHub 上最受欢迎的 AI 编码工具之一
  • 许可证:Apache-2.0,允许商业使用和二次开发
  • 社区活跃度:超过 1000+ Issues,200+ Contributors,每周都有版本更新

这种开源策略使得 Codex 不仅是一个产品,更是一个生态系统——开发者可以基于 Codex 构建自己的工具链、插件和工作流。


二、Codex 产品线:四种形态

Codex 最大的特点之一是它不是单一产品,而是一个**多表面(Multi-Surface)**的产品矩阵,覆盖了开发者日常工作的各个场景:

2.1 Codex CLI —— 命令行工具

定位:面向终端重度用户的本地编码智能体

核心特性

  • 在本地终端中运行,直接与你的文件系统和开发环境交互
  • 基于 Rust 实现(codex-rs),启动速度快,资源占用低
  • 支持多种审批模式:
    • suggest 模式:只建议,需手动批准
    • auto-edit 模式:自动编辑文件,命令需批准
    • full-auto 模式:全自动执行(适合 CI/CD 场景)
  • 支持 MCP 协议扩展,可接入数据库、API、文档等外部资源
  • 支持多模型切换,可通过 --model 参数指定

安装方式

npm install -g @openai/codex
# 或使用 Homebrew
brew install openai-codex

典型使用场景

  • 在服务器或远程环境中进行代码编辑
  • 自动化脚本编写和批量任务处理
  • CI/CD 流水线中的智能代码修复
  • 与 tmux、neovim 等终端工具链集成

2.2 Codex App —— 桌面应用

定位:面向所有用户的图形化 AI 助手

发展时间线

  • 2026 年 2 月 2 日:macOS 版本首发
  • 2026 年 3 月 4 日:Windows 版本发布
  • 2026 年 4 月 16 日:重大更新——引入 Computer Use 功能

核心特性

  • 独立桌面应用,无需打开终端或 IDE
  • 支持 Computer Use(计算机使用):Codex 可以看到屏幕、点击鼠标、键盘输入,操控你电脑上的任何应用
  • 内置 90+ 插件生态系统
  • 持久化记忆(Memory):记住你的偏好、项目上下文和历史对话
  • 集成浏览器:可以直接浏览网页、搜索文档
  • 支持后台任务:任务可以在后台持续运行,完成后通知你

Computer Use 的突破性意义: Computer Use 让 Codex 从"代码助手"进化为"通用桌面智能体"。它可以:

  • 操作 Excel、Figma、Photoshop 等非代码应用
  • 自动化桌面工作流(如批量处理文件、数据录入)
  • 测试 GUI 应用程序
  • 进行跨应用的数据整合

2.3 Codex Web —— 网页版

定位:零安装、即时可用的云端编码智能体

访问方式

核心特性

  • 无需安装任何软件,浏览器中即可使用
  • 任务在 OpenAI 云端沙箱中执行,不占用本地资源
  • 支持连接 GitHub 仓库,直接在云端读取和修改代码
  • 可以创建 Pull Request,直接将修改合并到代码仓库
  • 支持异步任务:提交任务后可以关闭页面,完成后再回来查看结果

典型使用场景

  • 快速原型验证
  • 代码审查和重构建议
  • 不方便安装本地环境时的紧急代码修改
  • 团队协作中的代码讨论和方案评审

2.4 Codex IDE —— 编辑器扩展

定位:无缝集成到开发者现有工作流

支持的编辑器

  • VS Code / VS Code Insiders
  • Cursor
  • Windsurf
  • 其他支持 VS Code 扩展的编辑器

核心特性

  • 在编辑器内直接与 Codex 对话
  • 侧边栏模式:一边写代码一边与 Codex 协作
  • 可以将任务委派给 Codex Cloud 在后台执行
  • 支持代码选中后直接提问或重构
  • 与编辑器的终端、调试器、Git 面板深度集成
  • 支持 ChatGPT macOS 应用连接到 VS Code

典型使用场景

  • 日常编码中的实时辅助
  • 复杂重构时的上下文理解
  • 代码解释和学习
  • 代码审查辅助

2.5 四种形态对比

特性CLIAppWebIDE
安装要求需要需要需要
本地执行
Computer Use
异步任务
开源
适用场景终端用户通用用户快速使用IDE 用户
离线能力部分部分部分

三、发展历程

Codex 的发展速度令人瞩目,从 2025 年开源到 2026 年成为全平台编码智能体,仅用了一年多时间:

3.1 2025 年 4 月 —— CLI 开源发布

里程碑事件:OpenAI 在 GitHub 上开源了 Codex CLI

  • 这是 OpenAI 首次将核心编码工具开源
  • 初始版本使用 Node.js/TypeScript 实现
  • 发布后迅速获得社区关注,短时间内突破数万 Stars
  • 采用 Apache-2.0 许可证,允许自由使用和修改
  • 社区开始贡献插件、工具链集成和文档

意义:这一举动表明 OpenAI 在编码领域的战略不仅仅是提供 API,而是要构建一个完整的开发者工具生态。

3.2 2025 年 5 月 —— Codex Cloud(Web 版)上线

里程碑事件:在 ChatGPT 中集成 Codex 云端编码能力

  • 用户可以在 chatgpt.com 中直接使用 Codex
  • 任务在 OpenAI 的云端沙箱中执行
  • 支持连接 GitHub 仓库
  • 推出了异步任务机制

意义:将 Codex 的受众从终端用户扩展到所有 ChatGPT 用户,大幅降低了使用门槛。

3.3 2025 年下半年 —— 模型与能力持续进化

  • codex-mini-latest 模型发布:基于 o4-mini 微调,专门优化了编码场景
  • Terminal-Bench 评分:在 Terminal-Bench 2.1 基准测试中达到 83.4% 的成绩
  • codex-rs 重写:CLI 核心从 TypeScript 迁移到 Rust,性能大幅提升
  • MCP 协议支持:接入 Model Context Protocol,扩展了外部工具集成能力
  • GPT-5 Codex 系列:推出 GPT-5-Codex 和 GPT-5-Codex-Mini 模型

3.4 2026 年 2 月 —— Codex 桌面应用发布

里程碑事件:推出独立的 Codex 桌面应用(macOS)

  • 独立应用形态,不再依赖终端或浏览器
  • 图形化界面,降低使用门槛
  • 支持插件系统
  • 3 月扩展到 Windows 平台

意义:标志着 Codex 从"开发者工具"向"通用 AI 助手"的转型。

3.5 2026 年 4 月 —— Computer Use 与全面升级

里程碑事件:Computer Use 功能上线,Codex 成为通用桌面智能体

  • Computer Use:Codex 可以看到屏幕、操作鼠标键盘,控制任何桌面应用
  • 90+ 插件:覆盖开发、设计、办公、数据分析等场景
  • 持久化记忆:Codex 记住用户的偏好和项目上下文
  • 集成浏览器:内置浏览器能力,可搜索文档、浏览网页

意义:这是 Codex 从"编码助手"到"通用智能体"的质变。Codex 不再只能写代码——它可以操作你电脑上的任何软件。

3.6 发展历程时间线

2025.04  ──→  CLI 开源发布(GitHub)
    │
2025.05  ──→  Codex Cloud 上线(ChatGPT 集成)
    │
2025 H2  ──→  codex-mini-latest / codex-rs / GPT-5 Codex / MCP
    │
2026.02  ──→  Codex 桌面应用(macOS)
    │
2026.03  ──→  Codex 桌面应用(Windows)
    │
2026.04  ──→  Computer Use / 90+ 插件 / Memory
    │
2026.05  ──→  Computer Use on Windows

四、核心价值主张

4.1 本地运行(Local-First)

Codex 的一个重要理念是本地优先

  • 数据安全:代码不需要上传到云端,敏感项目可以完全在本地处理
  • 低延迟:本地执行减少了网络往返时间,交互更流畅
  • 离线能力:部分场景下可以离线使用(需预先下载模型)
  • 资源控制:你可以控制 Codex 使用的计算资源

CLI 和 IDE 扩展默认在本地执行命令和编辑文件。即使 App 版本的 Computer Use 功能,也是在本地操控你的桌面应用。

当然,Web 版和部分任务仍然使用云端沙箱——但用户始终有选择权。

4.2 开源(Open Source)

Codex CLI 的开源特性带来了多重价值:

  • 透明性:你可以审查 Codex 的每一行代码,了解它如何工作
  • 可定制性:fork 项目,修改行为,适配你的工作流
  • 社区驱动:大量社区贡献的插件、集成和改进
  • 无供应商锁定:Apache-2.0 许可证允许你在任何地方使用
  • 信任基础:开源建立了用户对工具的信任——你能看到它在做什么

4.3 多表面覆盖(Multi-Surface)

Codex 的四种产品形态覆盖了开发者工作的所有场景:

  • CLI:服务器、远程开发、自动化
  • App:非技术用户、跨应用自动化、Computer Use
  • Web:快速使用、团队协作、零安装
  • IDE:日常编码、实时辅助、深度集成

这种多表面策略意味着:

  • 你不需要在不同工具间切换
  • 上下文可以在不同表面间同步(通过 Codex 账户和 Memory)
  • 团队成员可以根据自己的习惯选择最适合的界面

五、与 ChatGPT 的关系

很多人会问:Codex 和 ChatGPT 是什么关系?它们是竞争还是互补?

5.1 本质区别

维度ChatGPTCodex
定位通用对话 AI专业编码智能体
交互方式聊天对话任务驱动
执行能力不能直接操作文件系统可以读写文件、执行命令
上下文对话级别的上下文项目级别的上下文
工作模式同步对话支持异步后台任务
Computer Use无(截至2026年6月)支持

5.2 协作关系

Codex 和 ChatGPT 实际上是协作关系

  1. ChatGPT 是入口:Web 版 Codex 运行在 ChatGPT 平台上,ChatGPT Pro/Plus 用户可以直接使用
  2. 共享账户体系:Codex 使用 ChatGPT 的账户和订阅体系
  3. 能力互补:ChatGPT 擅长对话、知识问答、创意写作;Codex 擅长编码、文件操作、自动化
  4. 模型共享:两者都使用 OpenAI 的底层模型,但 Codex 有专门微调的编码模型

5.3 什么时候用哪个?

  • 用 ChatGPT:当你需要对话、问答、翻译、写作、头脑风暴时
  • 用 Codex:当你需要写代码、修改文件、运行程序、自动化任务时
  • 两者结合:用 ChatGPT 讨论方案和架构,用 Codex 实现和执行

六、适用场景

6.1 最适合 Codex 的场景

  1. 功能开发:从需求描述到完整实现,Codex 可以端到端完成

    • "给这个 API 添加分页功能"
    • "实现一个用户认证模块,支持 JWT"
  2. 代码重构:大规模代码重构和迁移

    • "把所有 class 组件重构为函数组件"
    • "将项目从 JavaScript 迁移到 TypeScript"
  3. Bug 修复:定位和修复 bug

    • "修复这个内存泄漏问题"
    • "用户报告登录后偶尔会掉线,帮我排查"
  4. 测试编写:自动生成单元测试和集成测试

    • "为 UserService 编写完整的测试用例"
    • "提升测试覆盖率到 80%"
  5. 文档生成:自动生成代码文档、README、API 文档

  6. DevOps 自动化:编写 CI/CD 配置、Dockerfile、部署脚本

  7. 跨应用自动化(App 版 Computer Use):

    • 自动化 Excel 数据处理
    • 批量重命名和整理文件
    • 自动填写表单

6.2 不太适合的场景

  • 纯创意写作:ChatGPT 更合适
  • 实时流式代码补全:GitHub Copilot 等内联补全工具更流畅
  • 完全没有编程基础的用户:虽然 Codex 降低了门槛,但基本的编程概念理解仍然重要
  • 高度机密且不允许使用 AI 的项目:需要遵守组织的 AI 使用政策

6.3 适用人群

  • 专业开发者:提升 10x 效率,减少重复劳动
  • 全栈工程师:快速切换不同技术栈
  • DevOps 工程师:自动化基础设施管理
  • 技术管理者:快速原型验证和方案评估
  • 学生和学习者:通过 AI 辅助加速学习编程
  • 非技术创始人:通过 Codex App 实现简单的技术需求

七、学习路径预览

恭喜你完成了第一课!以下是我们为你规划的完整学习路径:

第一阶段:基础入门(课程 100-109)

课程主题内容概要
100Codex 产品全景(本课)产品形态、发展历程、核心价值
101环境搭建与首次使用安装、配置、Hello World
102基础交互与提示词如何给 Codex 下达任务
103审批模式与安全设置suggest/auto-edit/full-auto
104模型选择与切换codex-mini / GPT-5 Codex 系列
105MCP 协议入门扩展 Codex 的工具能力
106Codex Web 使用指南chatgpt.com 上的 Codex
107IDE 扩展实战VS Code + Codex 集成
108Codex App 入门桌面应用基础操作
109阶段实战项目综合运用所学知识

第二阶段:进阶提升(课程 200-209)

  • 复杂任务编排与多步骤工作流
  • 高级 MCP 配置与自定义工具开发
  • 多模型协作策略
  • Codex 与 Git 工作流深度集成
  • 性能优化与成本控制
  • 团队协作最佳实践

第三阶段:专家级应用(课程 300-309)

  • Computer Use 高级自动化
  • Codex 插件开发
  • 企业级部署与管理
  • CI/CD 深度集成
  • 安全合规与审计
  • 构建自定义 Codex 工作流

第四阶段:实战项目(课程 400-409)

  • 全栈 Web 应用开发实战
  • 移动应用开发辅助
  • 数据分析与可视化自动化
  • 开源项目贡献指南
  • 个人 AI 编码工作流构建

总结

在本课中,我们学习了:

  1. Codex 是什么:OpenAI 的 AI 编码智能体,能够端到端完成软件工程任务
  2. 四种产品形态:CLI(命令行)、App(桌面应用)、Web(网页版)、IDE(编辑器扩展),覆盖开发者工作的所有场景
  3. 发展历程:从 2025 年 4 月 CLI 开源,到 2026 年 4 月 Computer Use 上线,Codex 在一年多时间内完成了从编码工具到通用智能体的蜕变
  4. 核心价值:本地运行保障安全、开源建立信任、多表面覆盖无缝衔接
  5. 与 ChatGPT 的关系:互补协作,ChatGPT 擅长对话和知识,Codex 擅长编码和执行
  6. 适用场景:功能开发、重构、Bug 修复、测试、文档、DevOps、跨应用自动化
  7. 学习路径:从基础入门到专家级应用的完整课程规划

下一步:进入 第 101 课「环境搭建与首次使用」,我们将手把手带你安装 Codex CLI,完成第一次与 Codex 的交互。


本课程内容基于 OpenAI Codex 截至 2026 年 6 月的最新版本。Codex 处于快速迭代中,部分细节可能随版本更新而变化。请以 官方文档 为准。