机器之心报道
编辑:Panda
凌晨 1 点,OpenAI 发布了 GPT-5-Codex。
从名字也能看出来,这是针对智能体编程任务进行了专门优化的 GPT-5。OpenAI 博客介绍说,GPT-5-Codex 的训练重点放在真实的软件工程任务上。它既能在短时间的交互式会话中快速响应,也能独立完成冗长复杂的任务。它的代码审查(code review)能力可以在代码上线前发现关键漏洞。

OpenAI 已经以附录形式将 GPT-5-Codex 加入了 GPT-5 系统卡。

值得一提的是,OpenAI 在 SWE-bench Verified 上的成绩这一次终于使用了该数据集中所有的共 500 个任务,而不是像之前那样只使用了 477 个任务(曾因此备受批评),OpenAI 声称之前只使用 477 个任务的原因是「有部分任务无法在基础设施上运行,而现在这一问题已解决。」
至于另一个代码重构基准 Code refactoring tasks 则包含许多来自大型成熟软件库的重构任务,覆盖 Python、Go、OCaml 等语言。比如 Gitea 的一个 PR,就修改了 232 个文件、3541 行代码,为应用逻辑引入 ctx 变量。
GPT-5-Codex 不仅性能更优,也能根据任务复杂度动态调整思考时间。
它结合了两种关键能力:一是与开发者配合的交互式会话,二是对长任务的持久自主执行。
在处理小型请求或对话时,GPT-5-Codex 反应更快;而在处理复杂任务(如大型重构)时,它能持续工作更久。OpenAI 表示:「在测试中,我们看到 GPT-5-Codex 能独立运行超过 7 小时,不断迭代实现、修复测试,最终交付可用代码。」
OpenAI 还分享了他们的 内部使用数据:
用户请求中,用户交互中 token 数量(包括隐藏的推理和最终的输出)最少的 10% 情况下,GPT-5-Codex 的 token 消耗比 GPT-5 少 93.7%。用户交互中 token 数量最多的 10% 情况下,它会投入更多时间,进行更深入的推理、编辑、测试和迭代。
批准模式(approval mode)简化为三种:
只读:需要明确批准才能修改;自动:拥有完整工作区权限,但在工作区外仍需批准;完全访问:可以读取任意文件,并在有网络访问的情况下运行命令。CLI 还支持压缩对话状态,方便管理更长的会话。
Codex IDE 插件
Codex 也能在 IDE 中直接使用。这个插件支持 VS Code、Cursor 以及其他 VS Code 分支。它能把 Codex 带进编辑器,让用户能无缝预览本地改动,并直接用 Codex 修改代码。

OpenAI 介绍了在 IDE 中使用 Codex 的几个优势:
你可以写更简短的提示词,得到更快的结果,因为 Codex 会自动利用上下文,例如你打开的文件或选中的代码。你可以在云端和本地环境之间流畅切换。比如,在编辑器里直接创建云端任务、跟踪进行中的工作或审查已完成的任务。如需要调整,你可以在 IDE 中直接打开云端任务,Codex 会保留上下文。云端的 Codex
除了 CLI 和 IDE 插件,新的 GitHub 集成也让 Codex 的云端智能体更贴近开发者的日常工作流。用户无需离开编辑器或 GitHub,就能把任务交给 Codex。

在 GitHub 上启用后:
当 PR 从草稿变为可审查状态时,Codex 会自动给出分析。如果它建议修改,你可以直接在同一讨论线程里让它实现。你也可以手动请求审查,比如在 PR 里输入 「@codex review」,甚至给额外指令,如 「@codex review for security vulnerabilities」(检查安全漏洞)或 「@codex review for outdated dependencies」(检查过时依赖)。OpenAI 表示:「在 OpenAI 内部,Codex 已经审查了我们绝大多数 PR,每天能发现数百个问题,很多在人工审查开始之前就已经被拦下。这让团队能更快推进,同时保持信心。」
OpenAI 如何让 Codex 更安全?
OpenAI 还介绍了在开发 Codex 时对代码与数据安全的保护措施,他们也部署了一些防范潜在滥用的手段。
默认沙箱环境:无论本地还是云端,Codex 默认运行在沙箱环境中,且关闭网络访问。这可以避免它在你的电脑上执行有害操作,也能减少来自不可信来源的提示词注入风险。权限机制:在执行可能危险的操作前,Codex 会请求许可。它也经过训练,会运行命令来验证自己的输出。可配置的安全设置:开发者可以根据风险承受度调整设置。在云端,可以限制网络访问只允许可信域名;在 CLI 和 IDE 插件中,开发者可以决定是否批准 Codex 运行命令,或允许它使用网页搜索、连接 MCP 服务器。这样能扩展能力,但也会增加风险。OpenAI 也给出了建议:「我们始终建议开发者在上线前先检查 Codex 的工作结果。Codex 会在每个任务中提供引用、终端日志和测试结果,方便人工验证。」但 OpenAI 也强调:Codex 应作为附加审查者,而不是完全取代人工审查。
和 GPT-5 一样,OpenAI 依然将 GPT-5-Codex 在生物与化学领域的任务归类为 High 能力,并采取了相应的安全措施,以尽量减少潜在风险。
价格与可用性
Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 订阅中。
Plus、Edu、Business 用户:每周可覆盖几次集中的编程会话。Pro 用户:支持一整周、多个项目的完整工作量。Business 计划:可以额外购买积分,突破默认上限。Enterprise 计划:提供共享积分池,按实际使用付费。目前用户还无法通过 API Key 使用 Codex CLI,但 OpenAI 也表示很快(soon)将通过 API 开放 GPT-5-Codex。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237