
编辑:桃子 好困
【新智元导读】凌晨,谷歌终极杀器Gemini 3重磅来袭,一出手就是Pro顶配版,号称「史上最强推理 多模态 氛围编程」三合一AI战神!基准测试横扫全场,就连GPT-5.1也被斩于马下,AI的下一个时代开启。
它来了,它来了!
就在刚刚,万众期待的年度压轴之王,谷歌新一代旗舰Gemini 3炸裂登场。
而且,一上来就是顶配的Gemini 3 Pro——
迄今推理最强,多模态理解最强,以及「智能体」 「氛围编程」最强的模型!

从实测来看,也的确如此。
在众多基准测试中,Gemini 3 Pro一举封神——
不仅相较于2.5 Pro实现了性能的全方位跃升,甚至直接把OpenAI刚上新的GPT-5.1甩出了好几条街。


Gemini 3 Deep Think在一些最具挑战性的AI基准测试中表现出色

或是想要学习一个新主题,直接扔给它学术论文、长视频讲座或教程,Gemini 3自动生成交互式抽认卡、可视化效果或其他格式的代码。
它甚至可以分析匹克球比赛视频,找出可以改进的地方,并生成针对性的训练计划以全面提升表现。

氛围编程,纯靠嘴
在2.5 Pro成功的基础上,Gemini 3兑现了——为开发者将任何想法变为现实的承诺。
它在零样本学习(zero-shot)生成方面表现出色,并能处理复杂的提示词和指令,以渲染更丰富、更具交互性的 Web UI。
如前所述,Gemini 3是谷歌迄今为止打造的最优秀的「氛围编程」和智能体编码模型。
在WebDev Arena排行榜上,Gemini 3以1487 Elo高分强势登顶。
它在Terminal-Bench 2.0上也获得了54.2%高分,该测试衡量模型通过终端操作计算机的工具使用能力;
并且在衡量编码智能体SWE-bench Verified测试上,以76.2%成绩远超2.5 Pro。
接下来一波演示中,便可见识Gemini 3真正实力。
编写一个复古3D太空飞船游戏,要有丰富的视觉效果,以及更强的交互性——没问题。

打造一个更丰富、更具交互性的Web UI和应用程序——还是轻松搞定!
前端不再需要人类,是真的...

长程规划,人类手替
自谷歌通过Gemini 2开启智能体时代以来,一直在不断进化。
他们不仅提升了Gemini的编码智能体能力,还提高了其在更长时间范围内可靠规划未来的能力。
而这一切,刚刚在Vending-Bench 2排行榜上得到实力认证——
Gemini 3以绝对优势登顶。
而这个测试,通过模拟运营一个自动售货机业务,深度考验AI在复杂场景下的长程规划能力。
令人欣喜的是,在整个模拟运营年度中,Gemini 3 Pro通过保持一致的工具使用和决策,在不偏离任务的情况下,实现了更高的回报。

曾在Anthropic担任AI工程师的MagicPath创始人Pietro Schirano,首先让Gemini 3 Pro创建了一个3D乐高编辑器。
没想到,它仅凭一次生成就完美实现了用户界面、复杂的空间逻辑以及所有功能。


最值得一提的是,Gemini 3竟完全在谷歌TPU上完成训练。这就是谷歌的护城河。

参考资料:
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237