AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优-脚本导航

> 自媒体 > （AI）人工智能 > AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

来源：智东西

2025-03-20 19:18:17

444

管理

作者 | 徐豫编辑 | 漠影

还有不到一周就2025年了，各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年，AI模型这份年终答卷，自然也少不了。

智东西12月25日报道，智源研究院12月19日发布了FlagEval“百模”评测结果，今年国产大模型与海外大模型战况焦灼。

在其闭源大模型评测能力总榜中，字节跳动的豆包通用模型pro拿到主观评测最高分，OpenAI的o1-mini拿到客观评测最高分；多模态模型评测总榜前三名依次是OpenAI的GPT-4o、字节跳动的豆包视觉理解模型、Anthropic的Claude 3.5 Sonnet。

▲大语言模型评测能力榜单前三名（图片来源：智源研究院）

此次评测包含国内外累计100多个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型，新增了对于AI模型任务解决能力、真实金融量化交易场景应用能力、辩论能力的考量标准。

同时，为了尽可能降低数据集泄露风险，并减少数据集饱和度问题，本次评测吸纳了近期发布的数据集、持续动态更新评测数据、替换了98%的题目以及提升了题目的难度。

其实去年6月，智源研究院就上线了大模型评测平台FlagEval，到现在该平台已有基于AI的辅助评测模型FlagJudge、多模态评测框架FlagEvalMM和针对大模型新能力的评测集。其与北京大学共建的HalluDial是目前全球规模最大的、对话场景下的幻觉评测集，包含超18000个轮次对话和超14万个回答。

从智源评测最新结果可以看出，今年下半年大模型发展更侧重综合能力提升与实际应用；多模态模型快速发展，该领域内涌现了不少新厂商与新AI模型；语言模型的发展则相对放缓。

得益于多模态能力的提升，AI模型最新K12学科测验综合得分相较于半年前提升了12.86%，但是仍与北京海淀学生平均水平存在差距。不过，AI模型普遍存在“文强理弱”的偏科情况，在英语和历史文科试题的表现上，已有AI模型超越了人类考生的平均分。

谷歌Gemini 1.5 Pro、阿里巴巴Qwen-VL-Max、Anthropic Claude 3.5 Sonnet、阶跃星辰Step 1V、南洋理工大学LLaVA-Onevision等7家AI模型的英语学科综合得分高于人类考生；阶跃星辰Step 1V、阿里巴巴Qwen-VL和Qwen-VL-Max、谷歌Gemini 1.5 Pro、南洋理工大学LLaVA-Onevision等12家AI模型的历史学科综合得分高于人类考生。

▲视觉语言模型排行榜前三名（图片来源：智源研究院）

面对文本、图片、视频、语音等多模态数据的处理时，豆包文生图模型、豆包视频生成模型“即梦P2.0 pro”分别在相应测试中位列全球第二，腾讯Hunyuan Image文生图水平全球第一，快手可灵1.5（高品质版）文生视频水平全球第一，阿里巴巴Qwen2-Audio语音语言水平全球第一。

▲文生视频模型排行榜前三名（左），文生图模型排行榜前三名（右）（图片来源：智源研究院）

目前，AI文生图的技术整体趋于成熟，但AI文生视频领域仍有较多挑战。现阶段，热门的AI文生视频模型有可灵1.5（高品质版）、即梦P2.0 pro、爱诗科技PixVerse V3、Minimax海螺AI、Pika同名AI模型Pika 1.5等。

其中，位列榜单第一、二名的可灵和即梦均可生成时长10s的视频，所生成的视频在图文一致性上也打成平手，但前者在AI视频真实性和视频质量略胜一筹，后者则在AI视频美学质量和分辨率上实现反超。

上述几家多模态模型中，只有阿里巴巴的走开源路线。对于多模态开源模型的实际效果，智源研究院方面称，虽然开源模型架构趋同，即通常采用语言塔和视觉塔的架构，但具体表现不一。其中较好的开源模型，在图文理解任务上正在缩小与头部闭源模型的能力差距，而长尾视觉知识与文字识别，以及复杂图文数据分析能力仍有提升空间。

三、AI模型更擅长反驳辩题，还可任职金融行业初级岗位

智源研究院在AI模型的年末评测中，新设置了对其辩论能力和金融量化交易能力的考核维度。

不到3个月前，智源研究院推出了一个名为FlagEval Debate的AI模型辩论平台。该平台主要从逻辑推理、观点理解和语言表达等核心能力维度，深入评估AI语言模型的能力差异。

据最新评测结果，一方面AI大模型普遍缺乏辩论框架意识，不具备围绕辩题、以整体逻辑综合阐述的能力；另一方面AI大模型在辩论中仍然存在“幻觉”问题，给出的论据通常经不起推敲。

相比于“正方”，AI大模型似乎更适合做辩论赛的“反方”。此次评测结果表明AI大模型更擅长反驳，各个模型所突出的辩论维度趋同。不过，遇到不同的辩题时AI模型间的表现差距会较为显著。

总体来看，在FlagEval Debate评测中，Anthropic Claude 3.5 Sonnet、零一万物Yi-Lighting、OpenAI o1-preview的综合水平排行前三。

而在金融量化交易领域，此次评测发现大模型已具备生成有回撤收益的策略代码的能力，能开发量化交易典型场景里的代码，头部AI模型能力已接近初级量化交易员的水平。

该榜单前5名依次是深度求索的DeepSeek-V2.5、OpenAI的GPT-4o、OpenAI的o1-mini、谷歌的Gemini 1.5 Pro和智谱华章的GLM-4-Plus。此外，百度、腾讯、字节跳动、商汤、阿里巴巴、百川智能和零一万物等7家国产大模型开发商均有产品上榜。

▲金融量化交易评测榜单前五名（图片来源：智源研究院）

智源研究院主要用知识问答、交易策略的跑通率和夏普指数、指标计算的跑通率和准确率、计算性能的跑通率这6项指标，来比较AI模型的金融量化交易能力。

其中，在知识问答方面，AI模型整体差异较小且整体分数偏高，大部分得分介于0.97到1之间，最低分为Meta Llama 3.1的0.69。然而，面对实际代码生成任务时，各AI模型差异较大，并且整体能力偏弱。

结语：国产大模型竞争加剧，下半场比拼商用质量

在这场“百家争鸣”中，国产大模型开发商们不仅巩固了其AI模型的中文能力优势，还进一步开发了文生图、文生视频、文生语音等多模态模型潜力。

过去一年，大模型领域也迎来了诸多新拐点，Scaling Law相对放缓、AI模型的数学能力从中学生水平跃升到博士生水平、OpenAI 12月底刚发布的推理模型o3性能接近甚至超过了人类水平、背靠AI模型的AI Agent概念和产品热度攀升。

下一步，AI模型将从卷参数量迈向卷应用场景，催熟商业化落地的效率和效益。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

18天前