编辑:倾倾
【新智元导读】当数学家陶哲轩把一道几何难题交给GPT-5 Pro,几分钟后,屏幕亮起——推理完美、逻辑无瑕,却依然没有答案。就在同一周,它又在全球最难的数学测试上夺冠。 分数耀眼得几乎刺眼,却掩不住那一瞬的空白:它真的理解了什么吗?
十年前,数学家陶哲轩还在黑板前,与学生们手推每一道几何公式。
十年后,他把同样的问题丢给一台机器——GPT-5 Pro。
他想知道:AI只是更快的计算者,还是正在接近真正的理解?
几分钟后,屏幕亮起:Minkowski公式、Willmore不等式、体积积分……它把整个推理写成了完美的论文草稿。
陶哲轩看着那串结果,既震撼,又有点心凉:问题依然无解,只是被粉饰得更漂亮了。
就在那一周,另一场数字化的「数学登山」也在进行。
GPT-5 Pro在全球最难的测试集FrontierMath上拿下13%的最高分。
分数耀眼,直觉却失灵。它像一个擅长计算的神童,但在真正的研究面前,依然停下了笔。
于是问题不再是「AI能不能解题」,而是:它到底理解了多少世界?

陶哲轩不是在考AI,而是把它推向了没有标准答案的科研地带。
在与ChatGPT持续互动约40分钟,他总结道:AI辅助在微观、宏观层面有帮助,但在中观层面有限。

10月11日,Epoch AI发出那条掀起惊涛骇浪的推文——
FrontierMath Tier 4:终极对决!GPT-5 Pro创下新纪录(13%),比Gemini 2.5 Deep Think多答对一道题(但差距在统计上不显著)。

左侧是Grok 4 Heavy(约5%),中间是Gemini 2.5(约12%),最右的GPT-5 Pro微微高出,停在13%的位置。
比Gemini 2.5 Deep Think多答对一道题(但差距在统计上不显著)。
这意味着,GPT-5 Pro虽然暂时「站在了山顶」,但它离真正的理解仍有整座山的距离。
这场拉锯更像是一场平局,只是GPT-5比Gemini 2.5早登顶几秒钟。

高分背后:算法的胜利,还是幻觉?
这场登顶赛其实揭示了另一个事实:AI的分数可以突破,但理解力依旧受限。
而这个问题,在陶哲轩的实测中被进一步放大。
胜出的一题,多半来自结构明确、符号化强的题型:代数、线性系统、基础分析。
而在几何构造、偏微分方程、非凸空间等题上,它几乎毫无建树。
Epoch AI自己也知道,这更像一次「算法微胜」,而非「数学突破」。
这次高分,靠的是更高算力、更长推理链、更聪明的提示词。
于是问题变成:当分数升高,理解力也跟着升高了吗?
也许在算法的世界里,它赢了;在理解的世界里,它还没出发。

陶哲轩在后续贴文中写道:
最优的自动化程度既不是0%,也不是100%。
真正高效的状态,是在每个层面都留下人的空隙。如果让AI解决所有简单任务,我们将失去面对困难时的方向感。

陶哲轩在事后说,AI的表现让他想到早年的科研训练。
年轻时的他,也曾花大量时间在局部细节中打转——证明一行、修正一式、推理一页,直到最后发现:真正的问题,在逻辑之外。
AI让他重新体会了这种「思维的局部化」,也让他意识到:人类的优势,正是在那些AI还不懂的地方。
今天的GPT-5已能自洽地完成复杂的形式推理,但它仍缺乏「全局意识」——那种在面对模糊、不确定、甚至错误假设时的直觉。
陶哲轩称之为「human situational awareness(情境感知)」:
AI的聪明是线性的,人类的理解是拓扑的。
这句话后来被不少数学家转发。因为它揭示了一种新的分工边界:AI可以成为证明的发动机,而人类依然是结构的设计师。
它能把定理算完,却算不出「意义」。或许这正是GPT-5真正的突破:
它逼着我们重新思考,AI的极限,正是人类的起点。
数学的意义,从来不只是得出答案,而是弄清楚——为什么答案还不存在。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237