刚刚，OpenAI 最强推理模型 o3 发布！首次能用图片思考，奥特曼：天才水平

> 自媒体 > （AI）人工智能 > 刚刚，OpenAI 最强推理模型 o3 发布！首次能用图片思考，奥特曼：天才水平 | 附实测细节

刚刚，OpenAI 最强推理模型 o3 发布！首次能用图片思考，奥特曼：天才水平 | 附实测细节

来源：爱范儿

2025-09-20 19:32:45

198

管理

就在刚刚，OpenAI o3/o4 mini 模型终于正式推出。直播用时接近 30 分钟，节奏快到飞起，信息量却满满当当。

o3 的发布历程本身也极具反转，今年 2 月，OpenAI 曾宣布搁置 o3 的独立发布计划，技术会打包塞进 GPT-5 里。到了 4 月初，深谙「饥饿营销」的 Altman 却宣称计划有变：

o3 要先上，GPT-5 反而得等等，最快也得几个月后。

我也上传了武康大楼的图片，o3 准确识别到了建筑位于淮海路附近，不过，回答却并没有给出建筑的名字。

o3 输入每百万 tokens（大约 75 万个词，长度超过《指环王》系列）的费用为 10 美元，输出每百万 tokens 的费用为 40 美元。

o4-mini 输入每百万 tokens 的费用为 1.10 美元，输出每百万 tokens 的费用为 4.40 美元。

前不久，OpenAI 被曝安全测试时间从数月缩水到了几天。而 o3 和 o4-mini 的系统卡则显示，OpenAI 重建了安全训练数据集，新增生物威胁、恶意软件生成和越狱攻击的拒绝提示。

根据最新的《准备框架》，o3 和 o4-mini 在生物与化学、网络安全及 AI 自我改进领域风险均低于「高」阈值。

医学博士 @DeryaTR_ 认为 o3 很聪明，「当我向 o3 提出具有挑战性的临床或医学问题时，它的回答听起来就像是来自顶级医生：准确、全面、基于证据且充满信心，表现得非常专业，完全符合我们对这个领域专家的期望。」

Altman 也转发引用了他的说法「o3 达到或接近天才的水平」。

在 @DeryaTR_ 看来，o4 mini 则稍微「低调」一些，回答细节上没有 o3 那么详细，可能更简洁、流畅，给人一种优雅的感觉，甚至可能更具「情感」。

当然，我们也上手测试了一些问题。

从前有一位老钟表匠，为一个教堂装一只大钟。他年老眼花，把长短针装配错了，短针走的速度反而是长针的12倍。装配的时候是上午 6 点，他把短针指在「6」上，长针指在「12」上。老钟表匠装好就回家去了。人们看这钟一会儿 7 点，过了不一会儿就8点了，都很奇怪，立刻去找老钟表匠。等老钟表匠赶到，已经是下午 7 点多钟。他掏出怀表来一对，钟准确无误，疑心人们有意捉弄他，一生气就回去了。这钟还是 8 点、9 点地跑，人们再去找钟表匠。老钟表匠第二天早晨 8 点多赶来用表一对，仍旧准确无误。请你想一想，老钟表匠第一次对表的时候是 7 点几分？第二次对表又是 8 点几分？

DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的「GroK-3.5」也预计将在本月陆续发布。

即便往前看，4 月也是 AI 最为「内卷」的一个月，很大程度上决定未来一年 AI 行业的发展走向，而更强的模型、更低的成本、更广的场景也将给我们带来更智能、更普惠的未来。

附 OpenAI 团队在 X 平台上举办的 AMA 总结：

OpenAI 计划在未来几个月发布一个出色的开放模型，新的图像生成功能将很快在 API 中推出。o3 现已在 API 中提供，而更先进的 o3-pro 模型正在开发中，预计很快发布。强化学习微调（Reinforcement fine-tuning）很快会全面开放，允许公开进行微调或使用推理模型进行强化学习（RL）。在 Responses API 中，开发者消息与系统消息之间的切换是自动处理的；将系统消息发送给 o3 或将开发者消息发送给 GPT-4.1 会自动转换。目前，ChatCompletions 或 Responses API 不支持托管工具在 o3 和 o4-mini 的推理阶段，Web 搜索、文件搜索和代码解释器等工具会被积极使用；这些工具目前在ChatGPT中已被支持，但尚未在 API 中支持——预计很快会添加支持。OpenAI 正在积极开发 Agents SDK 中的线程支持，以改善对话历史和记忆。OpenAI认为低代码平台在 Agents SDK 中的建议很有趣，并欢迎开发者就最有用的功能提供反馈。Codex CLI 包括多个文档化的审批模式，允许用户为每个操作或会话选择模式。Codex CLI 并不是用来替代 Cursor、Windsurf 等 IDE 工具；它的设计目的是在用户使用主要 IDE 时运行后台任务。比较 Codex 的编码能力和深度研究能力取决于选择的模型（o3 或 o4-mini）；Codex 特别利用函数调用，直接在用户计算机上执行命令。新模型主要训练于通用浏览、Python/代码执行工具和对开发者有用的用户定义工具。虽然 GPT-4.5 更强大，但它更慢且计算密集，GPT-4.1 为开发者提供了一个更快且更具成本效益的选择。GPT-4.1 的一些改进已经整合到 ChatGPT 中，更多改进将在未来推出。OpenAI 承认「4o」和「o4」等模型名称之间存在命名混淆，并计划很快简化模型命名。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿|原文链接· ·新浪微博

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

16天前