> 自媒体 > (AI)人工智能 > 连续干7小时“不累”,OpenAI最强编程模型GPT-5-Codex来了
连续干7小时“不累”,OpenAI最强编程模型GPT-5-Codex来了
来源:36氪
2025-09-20 19:04:38
90
管理

智东西9月16日消息,今日凌晨,OpenAI发布新模型GPT-5-Codex,这是其在GPT-5基础上专门为软件工程优化的模型版本,进一步提升了Codex中的智能体编程(Agentic Coding)能力。

OpenAI在博客中提到,GPT-5-Codex的训练侧重于实际的软件工程工作,其可以根据任务动态调整思考时间,在大型复杂任务上能够独立工作超过7个小时。

同时在基准测试中,相比于GPT-5,GPT-5-Codex在多项基准测试中的准确率、代码审查的高影响力评论概率都实现提升。

GPT-5-Codex发布后两个多小时,OpenAI联合创始人、CEO萨姆·阿尔特曼(Sam Altman)就在X中透露,GPT-5-Codex的流量占比已达到Codex总流量的40%左右,今天就能占到超一半流量比例。

在开发者使用Codex的所有场景中,GPT-5-Codex均可用,它是云端任务和代码审查的默认工具,开发者也可通过Codex命令行界面(CLI)或集成开发环境(IDE)进行扩展,选择将其用于本地任务。

OpenAI今年4月首次推出开源编程智能体Codex CLI和5月首次推出Codex的网页版,两周前将Codex整合为一个通过ChatGPT账户连接的单一产品体验,使得开发者可以在本地环境和云端之间无缝迁移工作,而不会丢失上下文。

Codex包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中,其中Plus、教育和Business套餐每周可支持几次重点编码课程,Pro套餐可支持一周内多个项目的使用。对于通过API密钥使用Codex CLI的开发人员,OpenAI计划很快在API中提供GPT-5-Codex。

在OpenAI的X评论区,开发者称OpenAI这一新发布对于处理复杂项目非常有前景,还有开发者对自己的AI工具订阅预算担忧。

在测试中,研究人员发现GPT‑5-Codex能够独立处理大型复杂任务超过7小时,不断迭代实现、修复测试错误并最终交付成功。

基于OpenAI内部员工的使用情况,研究人员发现当按模型生成的token数对用户交互轮次进行排序时,其中生成token数最少的排名最后10%情况中,GPT-5-Codex使用的token比GPT-5少93.7%。

排名前10%的情况正好相反,GPT-5-Codex会进行更多思考,在推理、代码编辑、测试以及迭代上花费的时间是GPT-5的两倍。

GPT-5-Codex还可用于执行代码审查并查找关键缺陷。审查时,它会浏览开发者的代码库,推理依赖关系,并运行代码和测试以验证正确性。

OpenAI评估了热门开源存储库中近期提交的代码审查性能,经验丰富的软件工程师会在每次提交时评估审查意见的正确性和重要性。

GPT-5的错误评论有约13.7%,GPT-5-Codex仅为4.4%,高影响力评论占比中GPT-5有39.4%,GPT-5-Codex有52.4%,每个拉取请求的平均评论数中,GPT-5平均有1.32条,GPT-5-Codex有0.9条。

他们发现,GPT-5-Codex的意见不太可能出现错误或不重要的情况。

其次是Codex IDE扩展

这一IDE扩展可将Codex智能体接入VS Code、Cursor以及其他基于VS Code衍生的编辑器,允许其与Codex共同预览本地代码变更、协同编辑代码。

当开发者在IDE中使用Codex时,只需输入更简短的指令就能获得结果,这是因为Codex可利用上下文信息,例如开发者已打开的文件或选中的代码片段。

Codex IDE扩展允许开发者在云端环境与本地环境之间切换工作流,开发者无需离开编辑器,就能创建新的云端任务、跟踪正在进行中的工作、查看已完成的任务。

若需对代码进行收尾调整,其还可以在IDE中直接打开云端任务,且Codex会完整保留相关上下文信息。

此外,OpenAI还一直在提升云基础设施的性能,通过缓存容器,其将新任务和后续任务的平均完成时间缩短了90%。Codex现在可以通过扫描并执行常用的安装脚本来自动设置环境;借助可配置的互联网访问权限,在运行时根据需要执行像pip install这样的命令来获取依赖项。

与CLI和IDE扩展中一样,开发者现在可以通过上传图像的方式,向Codex共享前端设计规范,如界面原型图、视觉稿,或上传界面错位、样式异常的截图说明UI漏洞。

Codex构建前端内容时,可以自行启动浏览器查看已构建的效果并进行迭代优化,最终会将结果截图附加到对应任务以及GitHub拉取请求中。

在代码审查中,Codex可以被用于发现关键缺陷。

与静态分析工具不同,它可以将拉取请求中声明的开发意图与实际差异进行匹配,结合整个代码库及依赖项展开推理分析,并通过执行代码与测试用例来验证实际运行行为。

一旦开发者在某个GitHub库启用了Codex,当拉取请求从草稿状态转为就绪状态时,Codex就会自动对其进行审查,并将分析结果发布在该拉取请求上。

如果Codex建议进行修改,开发者可以在同一个对话线程中让Codex直接实施这些修改。

开发者也可以在拉取请求中明确提及@codex review来请求审查,例如@codex review for security vulnerabilities(让Codex审查安全漏洞)或@codex review for outdated dependencies(让Codex审查过时的依赖项)。

Codex目前已在OpenAI内部,被用于审查其绝大多数的拉取请求,每天能发现数百个问题,而且往往是在人工审查开始之前就已发现。

03 结语:AI编程工具竞争白热化

当下,AI编程工具的竞争已经变得愈发激烈,既有OpenAI Codex、Claude Code、Anysphere Cursor、微软GitHub Copilot几大产品进场厮杀,还有Cursor年度经常性收入(ARR)在2025年初就超过5亿美元,更有AI代码编辑器Windsurf遭遇一场混乱收购,导致其团队被谷歌和Cognition两家公司瓜分。

OpenAI Codex此次升级,发布专门为智能体编程优化的全新模型,使得其自动化编程以及与用户协作的能力都大幅提升,证明了AI编程工具竞赛的激烈程度持续升温。

本文来自微信公众号 “智东西”(ID:zhidxcom),作者:程 茜,36氪经授权发布。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
国务院环卫工..(普通会员)
文章
1711
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索