今天,我读到一篇 Google DeepMind 发表的论文,标题很直接,叫《视频模型是零样本学习者和推理者》(Video models are zero-shot learners and reasoners)。这篇论文也许能够说明,计算机视觉领域可能正在迎来它的「GPT-3 时刻」。
大家可能还记得几年前,NLP 领域的 GPT-3 时刻。在 GPT-3 出现之前,我们有各种各样的模型:一个用于翻译,一个用于情感分析,另一个用于文章摘要。每个任务都需要一个专门训练的专用模型。
然后,大语言模型(LLM)出现了。它们基于一个简单的理念:用海量的网络数据训练一个巨大的、通用的生成模型。结果是惊人的。这些模型获得了所谓的「零样本」(zero-shot)能力,你不需要为特定任务去微调它,只要用自然语言给出指令(也就是 prompt),它就能完成各种任务,从写代码、做数学题到进行深度研究。NLP 领域从此进入了「一个模型打天下」的时代。
这篇论文的核心观点是,今天的视频模型,正走在和当年 LLM 完全相同的道路上。它们也遵循着同样的理念:在网络规模的数据上,训练一个大型的生成模型。
那么,这是否意味着,我们很快就能用一个通用的视频模型,来取代掉计算机视觉领域里那些琳琅满目的专用模型(比如用于物体检测的 YOLO 系列,或者用于图像分割的 Segment Anything)呢?
这篇论文通过对 Google 最新的 Veo 3 模型进行的大量实验,给出了一个非常肯定的答案。他们测试了超过 62 种定性任务和 7 种定量任务,生成了 18,384 个视频来验证模型的性能。结论是,Veo 3 确实展现出了惊人的、跨领域的零样本解决视觉问题的能力。
今天,我们就来深入解读一下这篇论文,看看视频模型是如何从简单的「像素生成器」,一步步走向「视觉世界通用理解者」的。
视觉智能的四个层次为了系统地展示 Veo 3 的能力,研究人员提出了一个视觉智能的层次模型,这个框架也为我们理解视频模型的能力提供了一个清晰的路线图。它分为四个层次,层层递进:
感知 (Perception):理解视觉信息的基础。建模 (Modeling):在感知的基础上,构建对物理世界的认知模型。操作 (Manipulation):有目的地改变和编辑它所感知和建模的世界。推理 (Reasoning):在时空维度上,进行多步骤的复杂逻辑思考。
接下来,我们一层一层地看。
1. 感知:当模型看懂世界在传统计算机视觉中,「感知」任务通常是各司其职的。你需要一个模型做边缘检测,一个模型做图像分割,另一个模型做超分辨率……。
而 Veo 3 仅通过 prompt,就能零样本完成所有这些经典的计算机视觉任务。比如,你给它一张模糊的图片,告诉它「消除这张图片的模糊」,它就能输出清晰的版本。
更有趣的是,研究人员在测试「边缘检测」这项任务时,发现了一个「细节悖论」。
他们使用标准数据集 BIPEDv2 对 Veo 3 的边缘检测能力进行评分,模型的 OIS 分数是 0.77。这个分数不错,但还没到顶尖水平。但当他们仔细检查 Veo 3 生成的边缘图时,发现了一个奇怪的现象:在很多情况下,Veo 3 生成的边缘图比数据集的「标准答案」还要准确和精细。

上图:「帧链」推理的经典案例——走迷宫。模型需要逐帧规划路径,从起点(红点)移动到终点(绿点),并且不能穿墙。
「帧链」推理让 Veo 3 能够解决一系列需要视觉规划的复杂任务,比如:
走迷宫:模型能生成一个完整的动画,展示一个物体从迷宫起点走到终点,全程遵守规则。完成视觉序列:类似于瑞文推理测验,模型能根据前几个图形的变化规律,推断出最后一个空格应该填什么图形。工具使用:在一个测试中,模型需要生成「从鱼缸里取出核桃」的视频。它成功地模拟了人使用工具(比如一个勺子)来完成这个任务。这种在视觉媒介中进行逐步推理的能力,是静态图像模型所不具备的,也是视频模型能够成为通用视觉基础模型的关键。
惊人的进步速度:Veo 2 vs. Veo 3如果说以上的能力展示还不够有说服力,那么模型版本的迭代速度和性能提升幅度,则为「范式转移」的论点提供了最强有力的证据。
论文对比了 Veo 3 和它的前代产品 Veo 2。根据发布信息,Veo 2 在 2025 年 4 月可用,而 Veo 3 在 2025 年 7 月就发布了,中间只隔了大约三个月。
在这短短的时间里,性能提升是巨大的。以「走迷宫」任务为例,在一个 $5 times 5$ 尺寸的迷宫上进行测试(10 次尝试内成功就算通过),Veo 3 的成功率达到了 78%。而仅仅三个月前的 Veo 2,成功率只有 14%。
短短三个月,解决视觉规划问题的能力提升了超过 5 倍。

上图:一个经典的运动规划难题(钢琴搬运工问题)。Veo 3 在尝试将沙发搬到另一个房间时,违反了物体的刚体属性,直接「穿模」而过。
总结尽管存在这些挑战,但这篇论文描绘的蓝图依然令人无比兴奋。
核心的论点是清晰且有力的:基于和 LLM 相同的基本原理,视频模型正在快速发展出通用的视觉理解和推理能力。它们通过「帧链」(CoF)这一独特的机制,实现了在时空维度上的逐步推理,从而能够解决过去静态模型无法处理的复杂视觉任务。
从 Veo 2 到 Veo 3 的巨大性能飞跃表明,我们正处在这项技术爆发的前夜。目前我们看到的性能,很可能只是模型真实能力的「下限」。
这不禁让我们思考一个更深远的问题:当「帧链」推理变得像今天 LLM 的「思维链」推理一样成熟和可靠时,AI 将能解决哪些我们今天甚至无法想象的、复杂的时空问题?
我们可能正在见证 AI 掌握物理和空间智能的开端。
参考链接
论文项目主页: https://video-zero-shot.github.io/论文原文 (arXiv): arXiv:2509.20328v1相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237