> 自媒体 > (AI)人工智能 > 刚刚,OpenAI发布GPT-5-Codex:独立工作超7小时,还能审查大型项目
刚刚,OpenAI发布GPT-5-Codex:独立工作超7小时,还能审查大型项目
来源:机器之心Pro
2025-09-20 19:13:13
160
管理

机器之心报道

编辑:Panda

凌晨 1 点,OpenAI 发布了 GPT-5-Codex。

从名字也能看出来,这是针对智能体编程任务进行了专门优化的 GPT-5。OpenAI 博客介绍说,GPT-5-Codex 的训练重点放在真实的软件工程任务上。它既能在短时间的交互式会话中快速响应,也能独立完成冗长复杂的任务。它的代码审查(code review)能力可以在代码上线前发现关键漏洞。

OpenAI 已经以附录形式将 GPT-5-Codex 加入了 GPT-5 系统卡。

值得一提的是,OpenAI 在 SWE-bench Verified 上的成绩这一次终于使用了该数据集中所有的共 500 个任务,而不是像之前那样只使用了 477 个任务(曾因此备受批评),OpenAI 声称之前只使用 477 个任务的原因是「有部分任务无法在基础设施上运行,而现在这一问题已解决。」

至于另一个代码重构基准 Code refactoring tasks 则包含许多来自大型成熟软件库的重构任务,覆盖 Python、Go、OCaml 等语言。比如 Gitea 的一个 PR,就修改了 232 个文件、3541 行代码,为应用逻辑引入 ctx 变量。

GPT-5-Codex 不仅性能更优,也能根据任务复杂度动态调整思考时间。

它结合了两种关键能力:一是与开发者配合的交互式会话,二是对长任务的持久自主执行。

在处理小型请求或对话时,GPT-5-Codex 反应更快;而在处理复杂任务(如大型重构)时,它能持续工作更久。OpenAI 表示:「在测试中,我们看到 GPT-5-Codex 能独立运行超过 7 小时,不断迭代实现、修复测试,最终交付可用代码。」

OpenAI 还分享了他们的 内部使用数据:

用户请求中,用户交互中 token 数量(包括隐藏的推理和最终的输出)最少的 10% 情况下,GPT-5-Codex 的 token 消耗比 GPT-5 少 93.7%。用户交互中 token 数量最多的 10% 情况下,它会投入更多时间,进行更深入的推理、编辑、测试和迭代。

批准模式(approval mode)简化为三种:

只读:需要明确批准才能修改;自动:拥有完整工作区权限,但在工作区外仍需批准;完全访问:可以读取任意文件,并在有网络访问的情况下运行命令。

CLI 还支持压缩对话状态,方便管理更长的会话。

Codex IDE 插件

Codex 也能在 IDE 中直接使用。这个插件支持 VS Code、Cursor 以及其他 VS Code 分支。它能把 Codex 带进编辑器,让用户能无缝预览本地改动,并直接用 Codex 修改代码。

OpenAI 介绍了在 IDE 中使用 Codex 的几个优势:

你可以写更简短的提示词,得到更快的结果,因为 Codex 会自动利用上下文,例如你打开的文件或选中的代码。你可以在云端和本地环境之间流畅切换。比如,在编辑器里直接创建云端任务、跟踪进行中的工作或审查已完成的任务。如需要调整,你可以在 IDE 中直接打开云端任务,Codex 会保留上下文。

云端的 Codex

除了 CLI 和 IDE 插件,新的 GitHub 集成也让 Codex 的云端智能体更贴近开发者的日常工作流。用户无需离开编辑器或 GitHub,就能把任务交给 Codex。

在 GitHub 上启用后:

当 PR 从草稿变为可审查状态时,Codex 会自动给出分析。如果它建议修改,你可以直接在同一讨论线程里让它实现。你也可以手动请求审查,比如在 PR 里输入 「@codex review」,甚至给额外指令,如 「@codex review for security vulnerabilities」(检查安全漏洞)或 「@codex review for outdated dependencies」(检查过时依赖)。

OpenAI 表示:「在 OpenAI 内部,Codex 已经审查了我们绝大多数 PR,每天能发现数百个问题,很多在人工审查开始之前就已经被拦下。这让团队能更快推进,同时保持信心。」

OpenAI 如何让 Codex 更安全?

OpenAI 还介绍了在开发 Codex 时对代码与数据安全的保护措施,他们也部署了一些防范潜在滥用的手段。

默认沙箱环境:无论本地还是云端,Codex 默认运行在沙箱环境中,且关闭网络访问。这可以避免它在你的电脑上执行有害操作,也能减少来自不可信来源的提示词注入风险。权限机制:在执行可能危险的操作前,Codex 会请求许可。它也经过训练,会运行命令来验证自己的输出。可配置的安全设置:开发者可以根据风险承受度调整设置。在云端,可以限制网络访问只允许可信域名;在 CLI 和 IDE 插件中,开发者可以决定是否批准 Codex 运行命令,或允许它使用网页搜索、连接 MCP 服务器。这样能扩展能力,但也会增加风险。

OpenAI 也给出了建议:「我们始终建议开发者在上线前先检查 Codex 的工作结果。Codex 会在每个任务中提供引用、终端日志和测试结果,方便人工验证。」但 OpenAI 也强调:Codex 应作为附加审查者,而不是完全取代人工审查。

和 GPT-5 一样,OpenAI 依然将 GPT-5-Codex 在生物与化学领域的任务归类为 High 能力,并采取了相应的安全措施,以尽量减少潜在风险。

价格与可用性

Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 订阅中。

Plus、Edu、Business 用户:每周可覆盖几次集中的编程会话。Pro 用户:支持一整周、多个项目的完整工作量。Business 计划:可以额外购买积分,突破默认上限。Enterprise 计划:提供共享积分池,按实际使用付费。

目前用户还无法通过 API Key 使用 Codex CLI,但 OpenAI 也表示很快(soon)将通过 API 开放 GPT-5-Codex。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
泡沫人生(普通会员)
文章
1600
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索