11月18日,谷歌把新一代AI模型Gemini 3推出来了。

数据显示挺醒目:在那套叫“Humanity’s Last Exam”的测试里,Gemini 3 Pro拿了37.5%,比GPT-5.1的26.5%高出不少,连Claude Sonnet 4.5的13.7%都被远远甩在后面。更让人注意的是,打开外部工具后,分数直接窜到45.8%。还有个叫MathArena的“地狱模式”,Gemini 3在那儿拿了23.4%,而同类模型通常只在1%上下打转。数字在这儿摆着,效果一目了然。
这些数据背后发生了什么?厂商把模型丢到一堆高难度评测里,测的不是简单的问答,而是高级推理、复杂数学证明、跨模态理解这些玩意儿。Gemini 3在这些难题上表现得比较稳,尤其是接上外部工具之后,能把外部计算、检索、调用的能力串进去,输出质量明显上去了。换句话说,模型本身的能力和外面“工具箱”合体,成了这次分数飙升的关键。

再往前看,这条路不是一蹴而就的。大模型的发展有几个比较明确的节点可以回溯。2018年,Transformer架构开始普及,BERT让大家知道注意力机制真能干事。到2020年,GPT-3带着1750亿参数把“通用能力”这事儿推上桌面。2022年ChatGPT让普通用户第一次实际感受到对话式AI的方便。2023年谷歌把多模态方向放进了Gemini 1。2024年开源阵营反手给了Llama 3,行业形成了闭源和开源并行的局面。到了2025年,这版Gemini在高阶推理上有明显进步,才出现了现在这种级别的表现。
从技术角度讲,这些进步靠的是一堆看起来不复杂但工程量巨大的东西。现在的大模型本质上还是Transformer的序列生成系统。输入先被向量化,然后通过多层注意力在这些向量间建立关系,最后生成文本。大体流程可以分成词嵌入、特征提取、序列生成三步。这个架构能处理长上下文,训练和并行化效率比老式RNN高,所以参数能往上堆到百亿、千亿、万亿级别。

商业化也不像早年单纯卖算力。现在常见的变现方式有四条:把模型做成API按调用量收费;直接做面向消费者的订阅服务或功能付费;做行业解决方案直接卖给企业;搭建工具链和生态,吸引开发者做插件和应用,靠分成赚钱。市场上已经有厂商靠行业方案拿到几亿元合同,说明客户愿意为能解决实际问题的模型买单。
竞争点越来越明确。技术上要提高参数利用效率和推理精度,谁能在有限算力下跑得更准更快,谁就吃香。数据资源也关键,优质标注和独家的行业数据能让某些场景占上风。还有生态,谁能把开发者、企业客户和终端用户绑在一起,谁的长期价值越明显。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237