陶哲轩亲测！GPT-5 Pro 40分钟破解3年难题，登顶最难数学考试-脚本导航

> 自媒体 > （AI）人工智能 > 陶哲轩亲测！GPT-5 Pro 40分钟破解3年难题，登顶最难数学考试

陶哲轩亲测！GPT-5 Pro 40分钟破解3年难题，登顶最难数学考试

来源：新智元

2025-10-16 10:08:29

197

管理

编辑：倾倾

【新智元导读】当数学家陶哲轩把一道几何难题交给GPT-5 Pro，几分钟后，屏幕亮起——推理完美、逻辑无瑕，却依然没有答案。就在同一周，它又在全球最难的数学测试上夺冠。分数耀眼得几乎刺眼，却掩不住那一瞬的空白：它真的理解了什么吗？

十年前，数学家陶哲轩还在黑板前，与学生们手推每一道几何公式。

十年后，他把同样的问题丢给一台机器——GPT-5 Pro。

他想知道：AI只是更快的计算者，还是正在接近真正的理解？

几分钟后，屏幕亮起：Minkowski公式、Willmore不等式、体积积分……它把整个推理写成了完美的论文草稿。

陶哲轩看着那串结果，既震撼，又有点心凉：问题依然无解，只是被粉饰得更漂亮了。

就在那一周，另一场数字化的「数学登山」也在进行。

GPT-5 Pro在全球最难的测试集FrontierMath上拿下13%的最高分。

分数耀眼，直觉却失灵。它像一个擅长计算的神童，但在真正的研究面前，依然停下了笔。

于是问题不再是「AI能不能解题」，而是：它到底理解了多少世界？

陶哲轩不是在考AI，而是把它推向了没有标准答案的科研地带。

在与ChatGPT持续互动约40分钟，他总结道：AI辅助在微观、宏观层面有帮助，但在中观层面有限。

10月11日，Epoch AI发出那条掀起惊涛骇浪的推文——

FrontierMath Tier 4：终极对决！GPT-5 Pro创下新纪录（13%），比Gemini 2.5 Deep Think多答对一道题（但差距在统计上不显著）。

左侧是Grok 4 Heavy（约5%），中间是Gemini 2.5（约12%），最右的GPT-5 Pro微微高出，停在13%的位置。

比Gemini 2.5 Deep Think多答对一道题（但差距在统计上不显著）。

这意味着，GPT-5 Pro虽然暂时「站在了山顶」，但它离真正的理解仍有整座山的距离。

这场拉锯更像是一场平局，只是GPT-5比Gemini 2.5早登顶几秒钟。

高分背后：算法的胜利，还是幻觉？

这场登顶赛其实揭示了另一个事实：AI的分数可以突破，但理解力依旧受限。

而这个问题，在陶哲轩的实测中被进一步放大。

胜出的一题，多半来自结构明确、符号化强的题型：代数、线性系统、基础分析。

而在几何构造、偏微分方程、非凸空间等题上，它几乎毫无建树。

Epoch AI自己也知道，这更像一次「算法微胜」，而非「数学突破」。

这次高分，靠的是更高算力、更长推理链、更聪明的提示词。

于是问题变成：当分数升高，理解力也跟着升高了吗？

也许在算法的世界里，它赢了；在理解的世界里，它还没出发。

陶哲轩在后续贴文中写道：

最优的自动化程度既不是0%，也不是100%。

真正高效的状态，是在每个层面都留下人的空隙。如果让AI解决所有简单任务，我们将失去面对困难时的方向感。

陶哲轩在事后说，AI的表现让他想到早年的科研训练。

年轻时的他，也曾花大量时间在局部细节中打转——证明一行、修正一式、推理一页，直到最后发现：真正的问题，在逻辑之外。

AI让他重新体会了这种「思维的局部化」，也让他意识到：人类的优势，正是在那些AI还不懂的地方。

今天的GPT-5已能自洽地完成复杂的形式推理，但它仍缺乏「全局意识」——那种在面对模糊、不确定、甚至错误假设时的直觉。

陶哲轩称之为「human situational awareness（情境感知）」：

AI的聪明是线性的，人类的理解是拓扑的。

这句话后来被不少数学家转发。因为它揭示了一种新的分工边界：AI可以成为证明的发动机，而人类依然是结构的设计师。

它能把定理算完，却算不出「意义」。或许这正是GPT-5真正的突破：

它逼着我们重新思考，AI的极限，正是人类的起点。

数学的意义，从来不只是得出答案，而是弄清楚——为什么答案还不存在。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

相关文章

三菱退出中国？官方回应：将与现有伙伴继续合作

6月23日，有媒体报道称，三菱汽车将逐步取消包括欧洲、中国在内的市场业..

2026款三菱帕杰罗曝光，第二代超选四驱+2.4T/2.0T双动力..

硬派越野圈的“老将”居然换小排量了？2026款三菱帕杰罗刚露出消息，就把..

恩智浦计划退出5G功率放大器业务；三星或将退出SATA SSD市场；三菱化学出售..

五分钟了解产业大事每日头条芯闻恩智浦计划退出5G功率放大器业务我国首..

实拍三菱全新欧蓝德！搭1.5T四缸，内饰配大屏，不比奇骏香？..

在重庆车展上，全新一代三菱欧蓝德终于在国内亮相了，相比其国外的发布时..

试驾广汽三菱奕歌：小巧灵动

■ 阅车试驾车型：广汽三菱奕歌长/宽/高（mm）：4405/1805/1685轴距（mm..

新车 | 四驱越野MPV/配侧滑门/2.2T柴油机，新款三菱Delica D:5亮相..

文：懂车帝原创高帅鹏[懂车帝原创产品] 日前，2025东京车展开幕，新款..

三菱集团的传奇发家史

“三菱”两个字，在日本就像一把瑞士军刀：银行、飞机、汽车、火箭、寿司..

2026款三菱Montero曝光，S-AWC四驱+差速锁全配，普拉多见了..

当 “普拉多见了都得慌” 的话题在越野圈炸锅，2026 款三菱 Montero 的曝..

日韩巨擘数据，三星2.1万亿三菱21万亿，中国第一谁？..

图片来源于网络2025年，让人火大的资本较量又来一波。韩国三星手里握着2...

关于作者

无根草(普通会员)

文章

1569

关注

0

粉丝

2

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

10个月前

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

10个月前

05

AI 界黑马DeepSeek 超详细介绍

10个月前

标签云

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索