2026年ICLR会议有篇盲审论文火了,叫《SAM3,用概念分割一切》,作者还没露面,但明眼人一看就知道,这是Meta家SAM系列的第三代升级款。
要知道前两代SAM可是视觉圈的“明星”,2023年4月初代SAM出来,第一次喊出“分割任何东西”;2024年7月SAM2跟上,直接把视频分割也拿下了。
现在SAM3要来了,其实,我还挺好奇它到底能玩出什么新花样。

之前的COCO数据集才80个类别,LVIS也就1200多个,SA-Co直接干到400万,数据量差了好几个量级。
有这么多数据喂着,SAM3的精度能上去也不奇怪。
实际测试结果也挺能打的,在LVIS数据集上,它的零样本分割精准度比之前最好的成绩高了不少;SA-Co基准上,性能是现有系统的两倍还多。
速度也不含糊,在H200GPU上,一张图30毫秒就能处理完,还能同时识别上百个对象,视频里也能接近实时。
很显然,精度和速度都在线,才好落地,要是跑个图要等半分钟,就算分再准,也没人愿意用。

SAM3跟前代比,不只是多了个功能,更像是把分割模型从“工具”变成了“能理解的助手”。
之前是你指挥它做,现在它能懂你说的“概念”。
我觉得这可能就是视觉AI的“GPT-3时刻”,就像GPT-3让NLP从“按规则生成”到“理解语义”,SAM3也让视觉分割从“按提示切割”到“理解概念”。
以后不管是医疗影像里找结节,还是自动驾驶里找行人,甚至是视频编辑里批量抠图,它都能派上用场。
总的来说,SAM3不是简单的“升级”,而是把分割的逻辑给变了。

从像素到概念,这一步跨得不小。
怕是最有体会的就是做视觉开发的同行,之前总羡慕NLP有GPT-3,现在视觉这边也有了能打的模型。
以后视觉AI能玩的花样,肯定会越来越多。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237