国产开源逆袭！Eigen-1凭DeepseekV3.1，HLE首破60分碾压 GPT-5-脚本导航

> 自媒体 > （AI）人工智能 > 国产开源逆袭！Eigen-1凭DeepseekV3.1，HLE首破60分碾压 GPT-5

国产开源逆袭！Eigen-1凭DeepseekV3.1，HLE首破60分碾压 GPT-5

来源：笔杆先生

2025-10-01 09:55:42

193

管理

这套测试题有多难？总共3000道题，全是数学、自然科学、工程学这些领域的博士级难题，相当于让AI直接站上学术研究的最前沿。

而Eigen-1突破的HLEBio/ChemGold子集，更是“难中之难”——149道题全经过领域专家人工审核，剔除了所有歧义题和错题，是目前评估AI科学推理最靠谱的“尺子”。

在此之前，没有任何AI系统能在这个子集的Pass@5（五次尝试内做对）指标上摸到60分。

谷歌的Gemini2.5Pro才26.9%，OpenAI的GPT-5也只有22.82%，就算是马斯克家的Grok4，也才刚过30%，而Eigen-1直接干到了61.74%，一下把门槛拉高了一个维度。

更颠覆的是，Eigen-1的“出身”跟其他巨头不一样。

GPT-5、Gemini全是闭源的“黑盒子”，靠堆算力、堆数据硬冲；而Eigen-1的底座是完全开源的DeepSeekV3.1——这就好比用普通玩家能买到的零件，攒出了比专业赛车还快的跑车。

2、

能实现这种反超，全靠黑科技加持，说通俗点就是让AI学会了“聪明地思考”，而不是“死记硬背”。

传统AI查资料就像老电脑换程序，每次要新信息都得“重启”——先停下推理，搜完再接着想，不仅慢，还容易忘事儿，业内叫这“工具税”。

Eigen-1的Monitor-basedRAG（隐式知识增强）就解决了这问题，它给AI装了个“监控器”，推理时一旦遇到不确定的地方，会自动提炼最关键的关键词去搜资料，然后像聊天时自然接话一样把信息插进去，全程不打断思路。

数据显示，这招直接把计算成本砍了53.5%，推理步骤少了43.7%，还比老办法更准。

比如算“单倍型计数”这道题时，AI一开始搞不清重组约束的规则，“监控器”立刻察觉到问题，精准搜到两个关键知识点，无缝补进推理过程，最后顺理成章算出了30个的正确答案。

以前的多智能体AI解题，就像开“民主大会”——几个AI各算各的，最后投票选答案，往往好思路会被平庸答案稀释。

Eigen-1的HSR（分层解法修复）换了个玩法：搞“层级精炼”，先挑一个最靠谱的答案当“锚点”，其他答案围着它做针对性修正，不是简单投票，而是真取长补短。

3、

修正还分四个维度：补全逻辑漏洞、纠正计算错误、换更优解法、把话说清楚，确保每轮优化都有实效。

有次解“昆虫识别花朵计数”的复合题，锚点答案选对了模型但算错了部署时间，其他AI立刻补上计算方法、修正数值，最后给出了完美答案。

这要是老办法投票，错的数值说不定就被带偏了。

AI解题常犯“瞎使劲”的毛病：简单题反复琢磨，难题反而草草收场，Eigen-1的QAIR（质量感知迭代推理）专治这个，给AI加了个“质量裁判”。

每做完一题，先从“逻辑通不通、答案对不对、解释全不全”三个维度打分，高分答案直接过，不用瞎折腾；低分答案才启动深度优化，把算力花在刀刃上。

4、

这可不是纸上谈兵的突破，现在科研人员做实验、查文献、算数据常常要耗几个月，要是AI能帮着做复杂推理、修正实验思路，说不定能把新药研发、材料突破的周期缩短一半。

有业内专家预测，再过两三年，实验室里可能会标配“AI科研助手”，专门帮人类啃最硬的科学骨头。

更值得关注的是开源底座的胜利，以前大家总觉得“闭源才是天花板”，Eigen-1用DeepSeekV3.1证明：开源模型只要配上聪明的“思考框架”，照样能打败闭源巨头。

这对整个行业是个大好事——开源意味着更多团队能参与优化，AI的进步速度会越来越快，成本也会越来越低。

5、

不过话说回来，HLE考60分不代表AI能取代科学家了。

它现在更像个“超级学霸助手”——能帮着梳理思路、检查错误、补充知识，但最终的科研方向、实验设计还得靠人类拍板。

就像这次Eigen-1的突破，背后是耶鲁、上交大等团队的智慧结晶，AI只是把人类的想法落地得更高效。

但不可否认的是，Eigen-1的出现标志着AI从“会做题”向“会研究”迈了一大步。

从GPT-5的22.82%到Eigen-1的61.74%，这不只是数字的跳跃，更是AI思考模式的质变。

接下来最让人期待的，就是这套“聪明的思考框架”能用到更多领域：帮医生分析复杂病例、给工程师优化设计方案、为天文学家筛选宇宙信号。

毕竟，AI考高分不是目的，能用这些能力帮人类解决实际问题，才是真的厉害。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

相关文章

三菱退出中国？官方回应：将与现有伙伴继续合作

6月23日，有媒体报道称，三菱汽车将逐步取消包括欧洲、中国在内的市场业..

2026款三菱帕杰罗曝光，第二代超选四驱+2.4T/2.0T双动力..

硬派越野圈的“老将”居然换小排量了？2026款三菱帕杰罗刚露出消息，就把..

恩智浦计划退出5G功率放大器业务；三星或将退出SATA SSD市场；三菱化学出售..

五分钟了解产业大事每日头条芯闻恩智浦计划退出5G功率放大器业务我国首..

实拍三菱全新欧蓝德！搭1.5T四缸，内饰配大屏，不比奇骏香？..

在重庆车展上，全新一代三菱欧蓝德终于在国内亮相了，相比其国外的发布时..

试驾广汽三菱奕歌：小巧灵动

■ 阅车试驾车型：广汽三菱奕歌长/宽/高（mm）：4405/1805/1685轴距（mm..

新车 | 四驱越野MPV/配侧滑门/2.2T柴油机，新款三菱Delica D:5亮相..

文：懂车帝原创高帅鹏[懂车帝原创产品] 日前，2025东京车展开幕，新款..

三菱集团的传奇发家史

“三菱”两个字，在日本就像一把瑞士军刀：银行、飞机、汽车、火箭、寿司..

2026款三菱Montero曝光，S-AWC四驱+差速锁全配，普拉多见了..

当 “普拉多见了都得慌” 的话题在越野圈炸锅，2026 款三菱 Montero 的曝..

日韩巨擘数据，三星2.1万亿三菱21万亿，中国第一谁？..

图片来源于网络2025年，让人火大的资本较量又来一波。韩国三星手里握着2...

关于作者

巫月(普通会员)

文章

1621

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

10个月前

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

10个月前

05

AI 界黑马DeepSeek 超详细介绍

10个月前

标签云

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索