> 自媒体 > (AI)人工智能 > 刚刚,OpenAI 最强推理模型 o3 发布!首次能用图片思考,奥特曼:天才水平 | 附实测细节
刚刚,OpenAI 最强推理模型 o3 发布!首次能用图片思考,奥特曼:天才水平 | 附实测细节
来源:爱范儿
2025-09-20 19:32:45
198
管理

就在刚刚,OpenAI o3/o4 mini 模型终于正式推出。直播用时接近 30 分钟,节奏快到飞起,信息量却满满当当。

o3 的发布历程本身也极具反转,今年 2 月,OpenAI 曾宣布搁置 o3 的独立发布计划,技术会打包塞进 GPT-5 里。到了 4 月初,深谙「饥饿营销」 的 Altman 却宣称计划有变:

o3 要先上,GPT-5 反而得等等,最快也得几个月后。

我也上传了武康大楼的图片,o3 准确识别到了建筑位于淮海路附近,不过,回答却并没有给出建筑的名字。

o3 输入每百万 tokens(大约 75 万个词,长度超过《指环王》系列)的费用为 10 美元,输出每百万 tokens 的费用为 40 美元。

o4-mini 输入每百万 tokens 的费用为 1.10 美元,输出每百万 tokens 的费用为 4.40 美元。

前不久,OpenAI 被曝安全测试时间从数月缩水到了几天。而 o3 和 o4-mini 的系统卡则显示,OpenAI 重建了安全训练数据集,新增生物威胁、恶意软件生成和越狱攻击的拒绝提示。

根据最新的《准备框架》,o3 和 o4-mini 在生物与化学、网络安全及 AI 自我改进领域风险均低于「高」阈值。

医学博士 @DeryaTR_ 认为 o3 很聪明,「当我向 o3 提出具有挑战性的临床或医学问题时,它的回答听起来就像是来自顶级医生:准确、全面、基于证据且充满信心,表现得非常专业,完全符合我们对这个领域专家的期望。」

Altman 也转发引用了他的说法「o3 达到或接近天才的水平」。

在 @DeryaTR_ 看来,o4 mini 则稍微「低调」一些,回答细节上没有 o3 那么详细,可能更简洁、流畅,给人一种优雅的感觉,甚至可能更具「情感」。

当然,我们也上手测试了一些问题。

从前有一位老钟表匠,为一个教堂装一只大钟。他年老眼花,把长短针装配错了,短针走的速度反而是长针的12倍。装配的时候是上午 6 点,他把短针指在「6」上,长针指在「12」上。老钟表匠装好就回家去了。人们看这钟一会儿 7 点,过了不一会儿就8点了,都很奇怪,立刻去找老钟表匠。等老钟表匠赶到,已经是下午 7 点多钟。他掏出怀表来一对,钟准确无误,疑心人们有意捉弄他,一生气就回去了。这钟还是 8 点、9 点地跑,人们再去找钟表匠。老钟表匠第二天早晨 8 点多赶来用表一对,仍旧准确无误。请你想一想,老钟表匠第一次对表的时候是 7 点几分?第二次对表又是 8 点几分?

DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的「GroK-3.5」 也预计将在本月陆续发布。

即便往前看,4 月也是 AI 最为「内卷」的一个月,很大程度上决定未来一年 AI 行业的发展走向,而更强的模型、更低的成本、更广的场景也将给我们带来更智能、更普惠的未来。

附 OpenAI 团队在 X 平台上举办的 AMA 总结: OpenAI 计划在未来几个月发布一个出色的开放模型,新的图像生成功能将很快在 API 中推出。o3 现已在 API 中提供,而更先进的 o3-pro 模型正在开发中,预计很快发布。强化学习微调(Reinforcement fine-tuning)很快会全面开放,允许公开进行微调或使用推理模型进行强化学习(RL)。在 Responses API 中,开发者消息与系统消息之间的切换是自动处理的;将系统消息发送给 o3 或将开发者消息发送给 GPT-4.1 会自动转换。目前,ChatCompletions 或 Responses API 不支持托管工具在 o3 和 o4-mini 的推理阶段,Web 搜索、文件搜索和代码解释器等工具会被积极使用;这些工具目前在ChatGPT中已被支持,但尚未在 API 中支持——预计很快会添加支持。OpenAI 正在积极开发 Agents SDK 中的线程支持,以改善对话历史和记忆。OpenAI认为低代码平台在 Agents SDK 中的建议很有趣,并欢迎开发者就最有用的功能提供反馈。Codex CLI 包括多个文档化的审批模式,允许用户为每个操作或会话选择模式。Codex CLI 并不是用来替代 Cursor、Windsurf 等 IDE 工具;它的设计目的是在用户使用主要 IDE 时运行后台任务。比较 Codex 的编码能力和深度研究能力取决于选择的模型(o3 或 o4-mini);Codex 特别利用函数调用,直接在用户计算机上执行命令。新模型主要训练于通用浏览、Python/代码执行工具和对开发者有用的用户定义工具。虽然 GPT-4.5 更强大,但它更慢且计算密集,GPT-4.1 为开发者提供了一个更快且更具成本效益的选择。GPT-4.1 的一些改进已经整合到 ChatGPT 中,更多改进将在未来推出。OpenAI 承认「4o」和「o4」等模型名称之间存在命名混淆,并计划很快简化模型命名。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿|原文链接· ·新浪微博

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
赶海的老阿姨..(普通会员)
文章
1745
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索