2025年AI三巨头深度实测：Claude、ChatGPT、Gemini真实对比-脚本导航

> 自媒体 > （AI）人工智能 > 2025年AI三巨头深度实测：Claude、ChatGPT、Gemini真实对比

2025年AI三巨头深度实测：Claude、ChatGPT、Gemini真实对比

来源：风的品味

2025-10-31 09:16:47

186

管理

没有哪个模型能包打天下。这三天的实测和最新基准把事实摆在眼前：

我先把几个关键数字放这儿，方便你快速比一比：在SWE-Bench上，Claude Sonnet 4.5得了77.2%，开增强模式能推到82%；同期GPT-5大概落后5个点，Gemini比Claude低约10个点。GPQA Diamond里，Gemini 2.5 Pro拿到86.4%，GPT-5是85.7%，Claude是83.4%。OSWorld的实测里，Claude对真实电脑操作的得分，从四个月前的42.2%跳到了61.4%，提升接近20个百分点。响应速度方面，Gemini跑得最快，平均约148 tokens/秒，GPT-5在102 tokens/秒上下。价格按每百万 tokens 算，Gemini $6.25、ChatGPT $11.25、Claude $18。厂商Anthropic说Claude的编程错误率从9%降到0%，这是他们给出的数字，需要更多实战去验证。

说到我亲自跑的项目，先从编程任务说起。我让三家各写一个完整的HTML/CSS/JS俄罗斯方块。Claude一次性给出的版本是能直接玩的：结构清楚、分数统计、有“下一个方块预览”、支持暂停和结束判断，界面对移动端有一定适配，注释齐全，代码也比较好维护。ChatGPT给的代码能玩，但少了“下一个方块”的预览，UI比较粗糙，跑起来还得手动修修小 bug。Gemini这次的输出功能上比ChatGPT更完整，界面也处理得像样，但代码组织不够优雅，性能上还有可优化的地方。把这些手工测试的感受和SWE-Bench的得分放一起看，Claude在处理复杂逻辑和可维护性上确实更有优势，这和基准的倾向吻合。

用户画像上能看出明显的偏好分布：如果你重视深度分析、要求高质量代码、经常处理长文档、预算相对充裕并且注重隐私，会更偏向Claude；如果你需要通用型、性价比高、对话体验流畅、喜欢丰富插件的生态，ChatGPT仍然是常见选择；如果你的工作强依赖Google生态、需要实时信息、看重速度与多媒体能力，Gemini会更合适。简单说，场景决定首选，用谁取决于你具体要他做啥。

这几天的测试是我把代码、数据分析、创意写作这些场景都跑了一遍，花了三天时间。数据来源包括2025年9月发布的一些基准报告和厂商公开信息，还有Anthropic、Vellum LLM Leaderboard、Artificial Analysis等公开榜单。结论不是凭一次测试胡猜出来的噪声，而是在多轮对比、不同输入、不同场景下得到的相对稳定的观察。数据截止到2025年10月19日。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

13天前