> 自媒体 > (AI)人工智能 > OpenAI 3万亿美元测试,AI首战44个行业人类专家
OpenAI 3万亿美元测试,AI首战44个行业人类专家
来源:36氪
2025-10-11 16:22:22
194
管理

AI下半场,AGI已成过去式,ASI正引领新智能革命!OpenAI推出的GDPval评估体系,通过真实工作任务审视大模型潜力,揭示AI如何从实验室走向3万亿经济战场,助力人类从日常琐事中解放,拥抱创造性未来。

AI下半场真来了!

AGI都过时了,现在AI业内讨论的是超级人工智能ASI:

AGI能把人类从80%的日常工作中解放出来;

而ASI则全面超越人类智能的系统。

刚刚,在a16z访谈中,OpenAI首席科学家Jakub Pachocki,透露OpenAI的研究路线图的下一步是推理,下一个5年的重点目标是打造自动化研究人员:

AI自动发现新想法,自动化研究人员的工作,自动化机器学习研究。

但理解AI潜力最清晰的方式,并不是预测未来,而是看看模型现在已经能做什么。

历史经验告诉我们,从互联网到智能手机,每一项重大技术从诞生到普及都需要十年以上。

OpenAI希望以更透明的方式,展示大模型如何真正服务于现实世界。

因此,他们推出了一项全新的评估体系GDPval,在有据可依的基础上审视AI进步轨迹,而不是凭空臆测。

GDPVal,衡量AI的3万亿美元影响

过去,大模型评估往往集中在学术测试或编程挑战上。

这些评估虽然在推动模型推理能力方面起到了重要作用,但与现实工作场景仍有一定距离。

为了填补这道鸿沟,OpenAI逐步开发出一系列更贴近实际、更具经济意义的评估方法——

从传统的MMLU(涵盖多学科的考试型题目),

到更具实战意味的SWE-Bench(软件工程Bug修复任务)、MLE-Bench(机器学习工程任务,如模型训练与分析)、Paper-Bench(科研论文的逻辑推理与评议),

再到基于市场项目的SWE-Lancer(源于真实交易的自由职业软件开发任务)。

GDPval正是在这一演进路径上的下一个关键节点。

这项评估直接来源于现实工作中的任务,覆盖了9大行业、44种职业、每年共计3万亿美元经济价值。

整个任务集共包含1,320个高度专业化任务(其中220为金标任务子集,已开源)。

这些任务源于真实工作产出,比如法律意见书、工程图纸、客服对话记录或护理计划等。

当AI的产出开始计入GDP,它就不再是工具,而是超越「土地、劳动与资本」的第四种生产要素

半数任务,AI已逼近专业水平

早期测试结果显示,当前领先的大模型在某些任务上,表现已接近甚至媲美行业专家。

在220项金标任务中,行业专家盲测了多款主流模型:

GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4。

结果显示:

Claude Opus 4.1在美学表现方面表现最强(如文档排版、PPT布局等);GPT-5则在准确性方面领先,尤其擅长定位专业知识点。

当前最先进的大模型,输出质量已接近业内专家水平。其中,Claude Opus 4.1表现尤为突出——

在接近一半的任务中,其产出被评为「与人类一样好」甚至「优于人类」。

从GPT-4o(2024年春发布)到GPT-5(2025年夏发布),模型在GDPval任务上的平均表现几乎翻倍,呈现出明显的线性进步趋势。

OpenAI设计了一条通用提示词,要求模型在提交结果前进行严谨的自检,可适用于各类多模态经济类任务,并未针对具体问题进行过拟合。

最豪评分员,顶尖机构的14年行业专家

在GDPval任务中,为了评估模型的实际表现,OpenAI依赖资深从业者作为「评分员」。

专家入选标准包括:至少4年行业从业经验,且简历中需体现专业认可度、晋升轨迹及管理职责。参与本项目的专家平均拥有14年从业经验。

行业专家团队曾任职于以下代表性机构:

Meta、微软、摩根士丹利、谷歌、甲骨文、苹果、通用电气、高盛、HBO、IBM、摩根大通、领英、洛克希德·马丁、美国银行、巴克莱银行、波音、美国疾控中心、花旗集团、美国国防部、美国联邦贸易委员会、美国国家公园管理局、NFL网络、雷神、Sally Beauty、《科学美国人》、苏富比、英国电讯报集团、赛默飞世尔、《时代》杂志、美国司法部、美国空军、美国邮政总局……

这些评分员来自与任务相同的职业背景,并在不知晓「人类 vs AI」身份的前提下,盲评由模型与人类任务撰写者完成的任务成果。

他们不仅会给出评价,还会对比排名,最终判断每个AI生成结果是「优于」、「相当于」或「劣于」人类结果。

为了确保评分过程透明一致,每位任务撰写者还为其职业领域制定了详细评分标准(rubric),涵盖各类评价维度。

OpenAI还开发了「自动评分器」——一个用于预测人类专家偏好的AI系统,模仿行业专家的对比评估方式。

自动评估工具比专家评估更快、成本更低,且与人类专家评估的一致性达到66%,仅比人类评估者之间71%的一致性低5%。

由于其局限性,OpenAI没有使用自动评分器取代人类打分员。

AI与工作的未来图景

随着AI能力不断提升,劳动力市场势必将发生结构性变化。

GDPval的早期结果已经表明,大模型在处理那些重复性强、结构清晰的任务时,效率远超人类专家,不仅更快也更便宜。

但也要看到,大多数工作不仅仅是可拆解的任务清单。

GDPval的意义在于:它揭示了AI可以承接哪些日常性事务型任务,从而为人类腾出时间专注更具创造力、判断力的复杂工作。

当AI能够以这种方式补充而非替代人类时,将为经济增长释放巨大潜力。

OpenAI希望借助GDPval与相关工具,推动AI工具的普及平民化,支持劳动者顺利适应时代变革,并打造能鼓励广泛参与与共享成果的激励机制。

同时,OpenAI也开放了GDPval金标任务子集以及一个公共评分平台,希望能为更多研究者提供基础设施,持续推动该方向的发展。

愿每个人都能搭上AI时代的「上行电梯」。

参考资料:

https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

https://openai.com/index/gdpval/

https://x.com/OpenAI/status/1971249382889750803

https://x.com/a16z/status/1971304302569546237

本文来自微信公众号“新智元”,作者:KingHZ,36氪经授权发布。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
搞印刷的黄先..(普通会员)
文章
1685
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索