没有哪个模型能包打天下。这三天的实测和最新基准把事实摆在眼前:

我先把几个关键数字放这儿,方便你快速比一比:在SWE-Bench上,Claude Sonnet 4.5得了77.2%,开增强模式能推到82%;同期GPT-5大概落后5个点,Gemini比Claude低约10个点。GPQA Diamond里,Gemini 2.5 Pro拿到86.4%,GPT-5是85.7%,Claude是83.4%。OSWorld的实测里,Claude对真实电脑操作的得分,从四个月前的42.2%跳到了61.4%,提升接近20个百分点。响应速度方面,Gemini跑得最快,平均约148 tokens/秒,GPT-5在102 tokens/秒上下。价格按每百万 tokens 算,Gemini $6.25、ChatGPT $11.25、Claude $18。厂商Anthropic说Claude的编程错误率从9%降到0%,这是他们给出的数字,需要更多实战去验证。
说到我亲自跑的项目,先从编程任务说起。我让三家各写一个完整的HTML/CSS/JS俄罗斯方块。Claude一次性给出的版本是能直接玩的:结构清楚、分数统计、有“下一个方块预览”、支持暂停和结束判断,界面对移动端有一定适配,注释齐全,代码也比较好维护。ChatGPT给的代码能玩,但少了“下一个方块”的预览,UI比较粗糙,跑起来还得手动修修小 bug。Gemini这次的输出功能上比ChatGPT更完整,界面也处理得像样,但代码组织不够优雅,性能上还有可优化的地方。把这些手工测试的感受和SWE-Bench的得分放一起看,Claude在处理复杂逻辑和可维护性上确实更有优势,这和基准的倾向吻合。

用户画像上能看出明显的偏好分布:如果你重视深度分析、要求高质量代码、经常处理长文档、预算相对充裕并且注重隐私,会更偏向Claude;如果你需要通用型、性价比高、对话体验流畅、喜欢丰富插件的生态,ChatGPT仍然是常见选择;如果你的工作强依赖Google生态、需要实时信息、看重速度与多媒体能力,Gemini会更合适。简单说,场景决定首选,用谁取决于你具体要他做啥。
这几天的测试是我把代码、数据分析、创意写作这些场景都跑了一遍,花了三天时间。数据来源包括2025年9月发布的一些基准报告和厂商公开信息,还有Anthropic、Vellum LLM Leaderboard、Artificial Analysis等公开榜单。结论不是凭一次测试胡猜出来的噪声,而是在多轮对比、不同输入、不同场景下得到的相对稳定的观察。数据截止到2025年10月19日。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237