最近AI圈有个新动静,第三代“分割一切”模型SAM3,已经悄悄投稿给ICLR2026了。
论文还在双盲评审,作者没露名字,但光看标题就知道不简单,这模型终于能听懂人话了,不用再像以前那样靠点选、画框才能分割东西。
比如你跟它说“条纹猫”,它就能自己在图里找出所有带条纹的猫,一个个都分割出来。
SAM3的“听懂人话”,靠的是啥技术?能做到这点,可不是随便改改代码就行。
SAM3背后有个叫PCS的新任务范式,全称是“可提示概念分割”。
简单说,就是你给它个短语、或者一张示例图,它就能把所有匹配的东西都找出来。
为了实现PCS,SAM3还改了架构。

它的检测器用了DETR变形Transformer的设计,能根据文字和视觉提示找实例。
最关键的是加了个PresenceHead模块,把“认东西”和“找位置”拆开来处理。
老实讲,以前的模型老是把这两件事放一起做,比如判断“这是不是猫”的同时还要找猫在哪,很容易出错,尤其是东西多的时候。
现在拆开来,精度确实提上去了。
光有架构还不够,数据得跟上。

还有开源社区早就用YOLO加GPT-4API实现过类似功能,觉得SAM3有点“炒冷饭”。
这种质疑也有道理,SAM3确实是在现有基础上优化,但它把多实例、图片视频统一处理这些点整合到一起,还是有进步的。
整体来看,SAM3算是给分割模型开了个新方向,从“靠手点”变成“靠嘴说”,门槛低了很多。
以后做视频剪辑、AR/VR这些事,用它来分割东西会方便不少。

比如剪视频的时候,想把所有“人物”都挑出来,不用再一帧一帧画框,说句话就行。
不过要想更实用,还得解决那些短板。
比如把复杂语言理解加上,再适配医疗、工业这些细分场景。
要是下一代模型能做到这些,说不定真能像SAM1那样,在CV领域再掀起一次小浪潮。
毫无疑问,SAM3现在还不是终点,但它至少让我们看到了分割模型“更聪明”的样子。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237