OpenAI 3万亿美元测试，AI首战44个行业人类专家-脚本导航

> 自媒体 > （AI）人工智能 > OpenAI 3万亿美元测试，AI首战44个行业人类专家

OpenAI 3万亿美元测试，AI首战44个行业人类专家

来源：36氪

2025-10-11 16:22:22

194

管理

AI下半场，AGI已成过去式，ASI正引领新智能革命！OpenAI推出的GDPval评估体系，通过真实工作任务审视大模型潜力，揭示AI如何从实验室走向3万亿经济战场，助力人类从日常琐事中解放，拥抱创造性未来。

AI下半场真来了！

AGI都过时了，现在AI业内讨论的是超级人工智能ASI：

AGI能把人类从80%的日常工作中解放出来；

而ASI则全面超越人类智能的系统。

刚刚，在a16z访谈中，OpenAI首席科学家Jakub Pachocki，透露OpenAI的研究路线图的下一步是推理，下一个5年的重点目标是打造自动化研究人员：

AI自动发现新想法，自动化研究人员的工作，自动化机器学习研究。

但理解AI潜力最清晰的方式，并不是预测未来，而是看看模型现在已经能做什么。

历史经验告诉我们，从互联网到智能手机，每一项重大技术从诞生到普及都需要十年以上。

OpenAI希望以更透明的方式，展示大模型如何真正服务于现实世界。

因此，他们推出了一项全新的评估体系GDPval，在有据可依的基础上审视AI进步轨迹，而不是凭空臆测。

GDPVal，衡量AI的3万亿美元影响

过去，大模型评估往往集中在学术测试或编程挑战上。

这些评估虽然在推动模型推理能力方面起到了重要作用，但与现实工作场景仍有一定距离。

为了填补这道鸿沟，OpenAI逐步开发出一系列更贴近实际、更具经济意义的评估方法——

从传统的MMLU（涵盖多学科的考试型题目），

到更具实战意味的SWE-Bench（软件工程Bug修复任务）、MLE-Bench（机器学习工程任务，如模型训练与分析）、Paper-Bench（科研论文的逻辑推理与评议），

再到基于市场项目的SWE-Lancer（源于真实交易的自由职业软件开发任务）。

GDPval正是在这一演进路径上的下一个关键节点。

这项评估直接来源于现实工作中的任务，覆盖了9大行业、44种职业、每年共计3万亿美元经济价值。

整个任务集共包含1,320个高度专业化任务（其中220为金标任务子集，已开源）。

这些任务源于真实工作产出，比如法律意见书、工程图纸、客服对话记录或护理计划等。

当AI的产出开始计入GDP，它就不再是工具，而是超越「土地、劳动与资本」的第四种生产要素

半数任务，AI已逼近专业水平

早期测试结果显示，当前领先的大模型在某些任务上，表现已接近甚至媲美行业专家。

在220项金标任务中，行业专家盲测了多款主流模型：

GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4。

结果显示：

Claude Opus 4.1在美学表现方面表现最强（如文档排版、PPT布局等）；GPT-5则在准确性方面领先，尤其擅长定位专业知识点。

当前最先进的大模型，输出质量已接近业内专家水平。其中，Claude Opus 4.1表现尤为突出——

在接近一半的任务中，其产出被评为「与人类一样好」甚至「优于人类」。

从GPT-4o（2024年春发布）到GPT-5（2025年夏发布），模型在GDPval任务上的平均表现几乎翻倍，呈现出明显的线性进步趋势。

OpenAI设计了一条通用提示词，要求模型在提交结果前进行严谨的自检，可适用于各类多模态经济类任务，并未针对具体问题进行过拟合。

最豪评分员，顶尖机构的14年行业专家

在GDPval任务中，为了评估模型的实际表现，OpenAI依赖资深从业者作为「评分员」。

专家入选标准包括：至少4年行业从业经验，且简历中需体现专业认可度、晋升轨迹及管理职责。参与本项目的专家平均拥有14年从业经验。

行业专家团队曾任职于以下代表性机构：

Meta、微软、摩根士丹利、谷歌、甲骨文、苹果、通用电气、高盛、HBO、IBM、摩根大通、领英、洛克希德·马丁、美国银行、巴克莱银行、波音、美国疾控中心、花旗集团、美国国防部、美国联邦贸易委员会、美国国家公园管理局、NFL网络、雷神、Sally Beauty、《科学美国人》、苏富比、英国电讯报集团、赛默飞世尔、《时代》杂志、美国司法部、美国空军、美国邮政总局……

这些评分员来自与任务相同的职业背景，并在不知晓「人类 vs AI」身份的前提下，盲评由模型与人类任务撰写者完成的任务成果。

他们不仅会给出评价，还会对比排名，最终判断每个AI生成结果是「优于」、「相当于」或「劣于」人类结果。

为了确保评分过程透明一致，每位任务撰写者还为其职业领域制定了详细评分标准（rubric），涵盖各类评价维度。

OpenAI还开发了「自动评分器」——一个用于预测人类专家偏好的AI系统，模仿行业专家的对比评估方式。

自动评估工具比专家评估更快、成本更低，且与人类专家评估的一致性达到66%，仅比人类评估者之间71%的一致性低5%。

由于其局限性，OpenAI没有使用自动评分器取代人类打分员。

AI与工作的未来图景

随着AI能力不断提升，劳动力市场势必将发生结构性变化。

GDPval的早期结果已经表明，大模型在处理那些重复性强、结构清晰的任务时，效率远超人类专家，不仅更快也更便宜。

但也要看到，大多数工作不仅仅是可拆解的任务清单。

GDPval的意义在于：它揭示了AI可以承接哪些日常性事务型任务，从而为人类腾出时间专注更具创造力、判断力的复杂工作。

当AI能够以这种方式补充而非替代人类时，将为经济增长释放巨大潜力。

OpenAI希望借助GDPval与相关工具，推动AI工具的普及平民化，支持劳动者顺利适应时代变革，并打造能鼓励广泛参与与共享成果的激励机制。

同时，OpenAI也开放了GDPval金标任务子集以及一个公共评分平台，希望能为更多研究者提供基础设施，持续推动该方向的发展。

愿每个人都能搭上AI时代的「上行电梯」。

参考资料：

https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

https://openai.com/index/gdpval/

https://x.com/OpenAI/status/1971249382889750803

https://x.com/a16z/status/1971304302569546237

本文来自微信公众号“新智元”，作者：KingHZ，36氪经授权发布。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

相关文章

三菱退出中国？官方回应：将与现有伙伴继续合作

6月23日，有媒体报道称，三菱汽车将逐步取消包括欧洲、中国在内的市场业..

2026款三菱帕杰罗曝光，第二代超选四驱+2.4T/2.0T双动力..

硬派越野圈的“老将”居然换小排量了？2026款三菱帕杰罗刚露出消息，就把..

恩智浦计划退出5G功率放大器业务；三星或将退出SATA SSD市场；三菱化学出售..

五分钟了解产业大事每日头条芯闻恩智浦计划退出5G功率放大器业务我国首..

实拍三菱全新欧蓝德！搭1.5T四缸，内饰配大屏，不比奇骏香？..

在重庆车展上，全新一代三菱欧蓝德终于在国内亮相了，相比其国外的发布时..

试驾广汽三菱奕歌：小巧灵动

■ 阅车试驾车型：广汽三菱奕歌长/宽/高（mm）：4405/1805/1685轴距（mm..

新车 | 四驱越野MPV/配侧滑门/2.2T柴油机，新款三菱Delica D:5亮相..

文：懂车帝原创高帅鹏[懂车帝原创产品] 日前，2025东京车展开幕，新款..

三菱集团的传奇发家史

“三菱”两个字，在日本就像一把瑞士军刀：银行、飞机、汽车、火箭、寿司..

2026款三菱Montero曝光，S-AWC四驱+差速锁全配，普拉多见了..

当 “普拉多见了都得慌” 的话题在越野圈炸锅，2026 款三菱 Montero 的曝..

日韩巨擘数据，三星2.1万亿三菱21万亿，中国第一谁？..

图片来源于网络2025年，让人火大的资本较量又来一波。韩国三星手里握着2...

关于作者

搞印刷的黄先..(普通会员)

文章

1685

关注

0

粉丝

1

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

10个月前

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

10个月前

05

AI 界黑马DeepSeek 超详细介绍

10个月前

标签云

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索