十年前,数学家陶哲轩还在黑板前,与学生们手推每一道几何公式。
十年后,他把同样的问题丢给一台机器——GPT-5 Pro。
他想知道:AI只是更快的计算者,还是正在接近真正的理解?
几分钟后,屏幕亮起:Minkowski公式、Willmore不等式、体积积分……它把整个推理写成了完美的论文草稿。
陶哲轩看着那串结果,既震撼,又有点心凉:问题依然无解,只是被粉饰得更漂亮了。
就在那一周,另一场数字化的「数学登山」也在进行。
GPT-5 Pro在全球最难的测试集FrontierMath上拿下13%的最高分。
分数耀眼,直觉却失灵。它像一个擅长计算的神童,但在真正的研究面前,依然停下了笔。
于是问题不再是「AI能不能解题」,而是:它到底理解了多少世界?
陶哲轩的实测AI在科研中的「三层表现」十年前,陶哲轩还在黑板前与学生推演几何。
这位被誉为「天才中的天才」的数学家,21岁就成了最年轻的菲尔兹奖得主。
十年后,他决定亲自验证这台「拿下13%纪录」的AI究竟能做什么。
他没有选择标准题库,而是把它带进真正的科研现场——那里没有标准答案,只有开放问题。

这条信息背后,是全球最难的数学测试之一——FrontierMath Tier 4。
Epoch AI在官网形容它是「研究级问题集」,题目难度可让专家花上数周甚至数月才有进展。
也就是说,这是考验「能不能思考」,而非「会不会算」。
从Gemini 2.5到GPT-5 Pro:三个月的登顶赛
7月,Epoch AI首次公开推出FrontierMath Tier 4,称之为「AI 数学能力的珠穆朗玛峰」——一套专为测试模型极限推理力而设计的研究级题库。
那时,还没有任何模型能在其中站稳脚。

到了9月,他们更新评分机制,引入「重试机制」——让AI能在推理失败后自我修正。
一切都像是在为10月的决战做准备。

就在陶哲轩还在和GPT-5 Pro「研究未解题」的前一天,谷歌Gemini 2.5 Deep Think刚刚创下纪录。
Epoch AI写道:
我们在FrontierMath上评估了Gemini 2.5 Deep Think。由于没有API,我们手动运行它。结果:新纪录!

陶哲轩在事后说,AI的表现让他想到早年的科研训练。
年轻时的他,也曾花大量时间在局部细节中打转——证明一行、修正一式、推理一页,直到最后发现:真正的问题,在逻辑之外。
AI让他重新体会了这种「思维的局部化」,也让他意识到:人类的优势,正是在那些AI还不懂的地方。
今天的GPT-5已能自洽地完成复杂的形式推理,但它仍缺乏「全局意识」——那种在面对模糊、不确定、甚至错误假设时的直觉。
陶哲轩称之为「human situational awareness(情境感知)」:
AI的聪明是线性的,人类的理解是拓扑的。
这句话后来被不少数学家转发。因为它揭示了一种新的分工边界:AI可以成为证明的发动机,而人类依然是结构的设计师。
它能把定理算完,却算不出「意义」。或许这正是GPT-5真正的突破:
它逼着我们重新思考,AI的极限,正是人类的起点。
数学的意义,从来不只是得出答案,而是弄清楚——为什么答案还不存在。
参考资料:
https://x.com/EpochAIResearch/status/1976685685349441826?s=19
https://mathstodon.xyz/@tao/115351400633010670
https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature。
https://mathstodon.xyz/deck/@tao/114501120421010793
本文来自微信公众号“新智元”,作者:新智元,编辑:倾倾 ,,36氪经授权发布。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237