
就在刚刚,OpenAI o3/o4 mini 模型终于正式推出。直播用时接近 30 分钟,节奏快到飞起,信息量却满满当当。
o3 的发布历程本身也极具反转,今年 2 月,OpenAI 曾宣布搁置 o3 的独立发布计划,技术会打包塞进 GPT-5 里。到了 4 月初,深谙「饥饿营销」 的 Altman 却宣称计划有变:
o3 要先上,GPT-5 反而得等等,最快也得几个月后。

我也上传了武康大楼的图片,o3 准确识别到了建筑位于淮海路附近,不过,回答却并没有给出建筑的名字。

o3 输入每百万 tokens(大约 75 万个词,长度超过《指环王》系列)的费用为 10 美元,输出每百万 tokens 的费用为 40 美元。
o4-mini 输入每百万 tokens 的费用为 1.10 美元,输出每百万 tokens 的费用为 4.40 美元。

前不久,OpenAI 被曝安全测试时间从数月缩水到了几天。而 o3 和 o4-mini 的系统卡则显示,OpenAI 重建了安全训练数据集,新增生物威胁、恶意软件生成和越狱攻击的拒绝提示。
根据最新的《准备框架》,o3 和 o4-mini 在生物与化学、网络安全及 AI 自我改进领域风险均低于「高」阈值。

医学博士 @DeryaTR_ 认为 o3 很聪明,「当我向 o3 提出具有挑战性的临床或医学问题时,它的回答听起来就像是来自顶级医生:准确、全面、基于证据且充满信心,表现得非常专业,完全符合我们对这个领域专家的期望。」
Altman 也转发引用了他的说法「o3 达到或接近天才的水平」。
在 @DeryaTR_ 看来,o4 mini 则稍微「低调」一些,回答细节上没有 o3 那么详细,可能更简洁、流畅,给人一种优雅的感觉,甚至可能更具「情感」。
当然,我们也上手测试了一些问题。
从前有一位老钟表匠,为一个教堂装一只大钟。他年老眼花,把长短针装配错了,短针走的速度反而是长针的12倍。装配的时候是上午 6 点,他把短针指在「6」上,长针指在「12」上。老钟表匠装好就回家去了。人们看这钟一会儿 7 点,过了不一会儿就8点了,都很奇怪,立刻去找老钟表匠。等老钟表匠赶到,已经是下午 7 点多钟。他掏出怀表来一对,钟准确无误,疑心人们有意捉弄他,一生气就回去了。这钟还是 8 点、9 点地跑,人们再去找钟表匠。老钟表匠第二天早晨 8 点多赶来用表一对,仍旧准确无误。请你想一想,老钟表匠第一次对表的时候是 7 点几分?第二次对表又是 8 点几分?

DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的「GroK-3.5」 也预计将在本月陆续发布。
即便往前看,4 月也是 AI 最为「内卷」的一个月,很大程度上决定未来一年 AI 行业的发展走向,而更强的模型、更低的成本、更广的场景也将给我们带来更智能、更普惠的未来。
附 OpenAI 团队在 X 平台上举办的 AMA 总结:
OpenAI 计划在未来几个月发布一个出色的开放模型,新的图像生成功能将很快在 API 中推出。o3 现已在 API 中提供,而更先进的 o3-pro 模型正在开发中,预计很快发布。强化学习微调(Reinforcement fine-tuning)很快会全面开放,允许公开进行微调或使用推理模型进行强化学习(RL)。在 Responses API 中,开发者消息与系统消息之间的切换是自动处理的;将系统消息发送给 o3 或将开发者消息发送给 GPT-4.1 会自动转换。目前,ChatCompletions 或 Responses API 不支持托管工具在 o3 和 o4-mini 的推理阶段,Web 搜索、文件搜索和代码解释器等工具会被积极使用;这些工具目前在ChatGPT中已被支持,但尚未在 API 中支持——预计很快会添加支持。OpenAI 正在积极开发 Agents SDK 中的线程支持,以改善对话历史和记忆。OpenAI认为低代码平台在 Agents SDK 中的建议很有趣,并欢迎开发者就最有用的功能提供反馈。Codex CLI 包括多个文档化的审批模式,允许用户为每个操作或会话选择模式。Codex CLI 并不是用来替代 Cursor、Windsurf 等 IDE 工具;它的设计目的是在用户使用主要 IDE 时运行后台任务。比较 Codex 的编码能力和深度研究能力取决于选择的模型(o3 或 o4-mini);Codex 特别利用函数调用,直接在用户计算机上执行命令。新模型主要训练于通用浏览、Python/代码执行工具和对开发者有用的用户定义工具。虽然 GPT-4.5 更强大,但它更慢且计算密集,GPT-4.1 为开发者提供了一个更快且更具成本效益的选择。GPT-4.1 的一些改进已经整合到 ChatGPT 中,更多改进将在未来推出。OpenAI 承认「4o」和「o4」等模型名称之间存在命名混淆,并计划很快简化模型命名。#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
爱范儿|原文链接· ·新浪微博
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237