陶哲轩亲测，GPT-5 Pro 40分钟破解3年难题，登顶最难数学考试-脚本导航

> 自媒体 > （AI）人工智能 > 陶哲轩亲测，GPT-5 Pro 40分钟破解3年难题，登顶最难数学考试

陶哲轩亲测，GPT-5 Pro 40分钟破解3年难题，登顶最难数学考试

来源：36氪

2025-10-14 09:48:23

74

管理

十年前，数学家陶哲轩还在黑板前，与学生们手推每一道几何公式。

十年后，他把同样的问题丢给一台机器——GPT-5 Pro。

他想知道：AI只是更快的计算者，还是正在接近真正的理解？

几分钟后，屏幕亮起：Minkowski公式、Willmore不等式、体积积分……它把整个推理写成了完美的论文草稿。

陶哲轩看着那串结果，既震撼，又有点心凉：问题依然无解，只是被粉饰得更漂亮了。

就在那一周，另一场数字化的「数学登山」也在进行。

GPT-5 Pro在全球最难的测试集FrontierMath上拿下13%的最高分。

分数耀眼，直觉却失灵。它像一个擅长计算的神童，但在真正的研究面前，依然停下了笔。

于是问题不再是「AI能不能解题」，而是：它到底理解了多少世界？

陶哲轩的实测AI在科研中的「三层表现」

十年前，陶哲轩还在黑板前与学生推演几何。

这位被誉为「天才中的天才」的数学家，21岁就成了最年轻的菲尔兹奖得主。

十年后，他决定亲自验证这台「拿下13%纪录」的AI究竟能做什么。

他没有选择标准题库，而是把它带进真正的科研现场——那里没有标准答案，只有开放问题。

这条信息背后，是全球最难的数学测试之一——FrontierMath Tier 4。

Epoch AI在官网形容它是「研究级问题集」，题目难度可让专家花上数周甚至数月才有进展。

也就是说，这是考验「能不能思考」，而非「会不会算」。

从Gemini 2.5到GPT-5 Pro：三个月的登顶赛

7月，Epoch AI首次公开推出FrontierMath Tier 4，称之为「AI 数学能力的珠穆朗玛峰」——一套专为测试模型极限推理力而设计的研究级题库。

那时，还没有任何模型能在其中站稳脚。

到了9月，他们更新评分机制，引入「重试机制」——让AI能在推理失败后自我修正。

一切都像是在为10月的决战做准备。

就在陶哲轩还在和GPT-5 Pro「研究未解题」的前一天，谷歌Gemini 2.5 Deep Think刚刚创下纪录。

Epoch AI写道：

我们在FrontierMath上评估了Gemini 2.5 Deep Think。由于没有API，我们手动运行它。结果：新纪录！

陶哲轩在事后说，AI的表现让他想到早年的科研训练。

年轻时的他，也曾花大量时间在局部细节中打转——证明一行、修正一式、推理一页，直到最后发现：真正的问题，在逻辑之外。

AI让他重新体会了这种「思维的局部化」，也让他意识到：人类的优势，正是在那些AI还不懂的地方。

今天的GPT-5已能自洽地完成复杂的形式推理，但它仍缺乏「全局意识」——那种在面对模糊、不确定、甚至错误假设时的直觉。

陶哲轩称之为「human situational awareness（情境感知）」：

AI的聪明是线性的，人类的理解是拓扑的。

这句话后来被不少数学家转发。因为它揭示了一种新的分工边界：AI可以成为证明的发动机，而人类依然是结构的设计师。

它能把定理算完，却算不出「意义」。或许这正是GPT-5真正的突破：

它逼着我们重新思考，AI的极限，正是人类的起点。

数学的意义，从来不只是得出答案，而是弄清楚——为什么答案还不存在。

参考资料：

https://x.com/EpochAIResearch/status/1976685685349441826?s=19

https://mathstodon.xyz/@tao/115351400633010670

https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature。

https://mathstodon.xyz/deck/@tao/114501120421010793

本文来自微信公众号“新智元”，作者：新智元，编辑：倾倾，，36氪经授权发布。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

相关文章

三菱退出中国？官方回应：将与现有伙伴继续合作

6月23日，有媒体报道称，三菱汽车将逐步取消包括欧洲、中国在内的市场业..

2026款三菱帕杰罗曝光，第二代超选四驱+2.4T/2.0T双动力..

硬派越野圈的“老将”居然换小排量了？2026款三菱帕杰罗刚露出消息，就把..

恩智浦计划退出5G功率放大器业务；三星或将退出SATA SSD市场；三菱化学出售..

五分钟了解产业大事每日头条芯闻恩智浦计划退出5G功率放大器业务我国首..

实拍三菱全新欧蓝德！搭1.5T四缸，内饰配大屏，不比奇骏香？..

在重庆车展上，全新一代三菱欧蓝德终于在国内亮相了，相比其国外的发布时..

试驾广汽三菱奕歌：小巧灵动

■ 阅车试驾车型：广汽三菱奕歌长/宽/高（mm）：4405/1805/1685轴距（mm..

新车 | 四驱越野MPV/配侧滑门/2.2T柴油机，新款三菱Delica D:5亮相..

文：懂车帝原创高帅鹏[懂车帝原创产品] 日前，2025东京车展开幕，新款..

三菱集团的传奇发家史

“三菱”两个字，在日本就像一把瑞士军刀：银行、飞机、汽车、火箭、寿司..

2026款三菱Montero曝光，S-AWC四驱+差速锁全配，普拉多见了..

当 “普拉多见了都得慌” 的话题在越野圈炸锅，2026 款三菱 Montero 的曝..

日韩巨擘数据，三星2.1万亿三菱21万亿，中国第一谁？..

图片来源于网络2025年，让人火大的资本较量又来一波。韩国三星手里握着2...

关于作者

小南小南(普通会员)

文章

1631

关注

0

粉丝

1

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

10个月前

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

10个月前

05

AI 界黑马DeepSeek 超详细介绍

10个月前

标签云

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索