视频模型的 GPT-3 时刻：谷歌 Veo 3 正在重新定义计算机视觉-脚本导航

> 自媒体 > （AI）人工智能 > 视频模型的 GPT-3 时刻：谷歌 Veo 3 正在重新定义计算机视觉

视频模型的 GPT-3 时刻：谷歌 Veo 3 正在重新定义计算机视觉

来源：不二小段

2025-10-01 13:02:49

管理

今天，我读到一篇 Google DeepMind 发表的论文，标题很直接，叫《视频模型是零样本学习者和推理者》（Video models are zero-shot learners and reasoners）。这篇论文也许能够说明，计算机视觉领域可能正在迎来它的「GPT-3 时刻」。

大家可能还记得几年前，NLP 领域的 GPT-3 时刻。在 GPT-3 出现之前，我们有各种各样的模型：一个用于翻译，一个用于情感分析，另一个用于文章摘要。每个任务都需要一个专门训练的专用模型。

然后，大语言模型（LLM）出现了。它们基于一个简单的理念：用海量的网络数据训练一个巨大的、通用的生成模型。结果是惊人的。这些模型获得了所谓的「零样本」（zero-shot）能力，你不需要为特定任务去微调它，只要用自然语言给出指令（也就是 prompt），它就能完成各种任务，从写代码、做数学题到进行深度研究。NLP 领域从此进入了「一个模型打天下」的时代。

这篇论文的核心观点是，今天的视频模型，正走在和当年 LLM 完全相同的道路上。它们也遵循着同样的理念：在网络规模的数据上，训练一个大型的生成模型。

那么，这是否意味着，我们很快就能用一个通用的视频模型，来取代掉计算机视觉领域里那些琳琅满目的专用模型（比如用于物体检测的 YOLO 系列，或者用于图像分割的 Segment Anything）呢？

这篇论文通过对 Google 最新的 Veo 3 模型进行的大量实验，给出了一个非常肯定的答案。他们测试了超过 62 种定性任务和 7 种定量任务，生成了 18,384 个视频来验证模型的性能。结论是，Veo 3 确实展现出了惊人的、跨领域的零样本解决视觉问题的能力。

今天，我们就来深入解读一下这篇论文，看看视频模型是如何从简单的「像素生成器」，一步步走向「视觉世界通用理解者」的。

视觉智能的四个层次

为了系统地展示 Veo 3 的能力，研究人员提出了一个视觉智能的层次模型，这个框架也为我们理解视频模型的能力提供了一个清晰的路线图。它分为四个层次，层层递进：

感知 (Perception)：理解视觉信息的基础。建模 (Modeling)：在感知的基础上，构建对物理世界的认知模型。操作 (Manipulation)：有目的地改变和编辑它所感知和建模的世界。推理 (Reasoning)：在时空维度上，进行多步骤的复杂逻辑思考。

接下来，我们一层一层地看。

1. 感知：当模型看懂世界

在传统计算机视觉中，「感知」任务通常是各司其职的。你需要一个模型做边缘检测，一个模型做图像分割，另一个模型做超分辨率……。

而 Veo 3 仅通过 prompt，就能零样本完成所有这些经典的计算机视觉任务。比如，你给它一张模糊的图片，告诉它「消除这张图片的模糊」，它就能输出清晰的版本。

更有趣的是，研究人员在测试「边缘检测」这项任务时，发现了一个「细节悖论」。

他们使用标准数据集 BIPEDv2 对 Veo 3 的边缘检测能力进行评分，模型的 OIS 分数是 0.77。这个分数不错，但还没到顶尖水平。但当他们仔细检查 Veo 3 生成的边缘图时，发现了一个奇怪的现象：在很多情况下，Veo 3 生成的边缘图比数据集的「标准答案」还要准确和精细。

上图：「帧链」推理的经典案例——走迷宫。模型需要逐帧规划路径，从起点（红点）移动到终点（绿点），并且不能穿墙。

「帧链」推理让 Veo 3 能够解决一系列需要视觉规划的复杂任务，比如：

走迷宫：模型能生成一个完整的动画，展示一个物体从迷宫起点走到终点，全程遵守规则。完成视觉序列：类似于瑞文推理测验，模型能根据前几个图形的变化规律，推断出最后一个空格应该填什么图形。工具使用：在一个测试中，模型需要生成「从鱼缸里取出核桃」的视频。它成功地模拟了人使用工具（比如一个勺子）来完成这个任务。

这种在视觉媒介中进行逐步推理的能力，是静态图像模型所不具备的，也是视频模型能够成为通用视觉基础模型的关键。

惊人的进步速度：Veo 2 vs. Veo 3

如果说以上的能力展示还不够有说服力，那么模型版本的迭代速度和性能提升幅度，则为「范式转移」的论点提供了最强有力的证据。

论文对比了 Veo 3 和它的前代产品 Veo 2。根据发布信息，Veo 2 在 2025 年 4 月可用，而 Veo 3 在 2025 年 7 月就发布了，中间只隔了大约三个月。

在这短短的时间里，性能提升是巨大的。以「走迷宫」任务为例，在一个 $5 times 5$ 尺寸的迷宫上进行测试（10 次尝试内成功就算通过），Veo 3 的成功率达到了 78%。而仅仅三个月前的 Veo 2，成功率只有 14%。

短短三个月，解决视觉规划问题的能力提升了超过 5 倍。

上图：一个经典的运动规划难题（钢琴搬运工问题）。Veo 3 在尝试将沙发搬到另一个房间时，违反了物体的刚体属性，直接「穿模」而过。

总结

尽管存在这些挑战，但这篇论文描绘的蓝图依然令人无比兴奋。

核心的论点是清晰且有力的：基于和 LLM 相同的基本原理，视频模型正在快速发展出通用的视觉理解和推理能力。它们通过「帧链」（CoF）这一独特的机制，实现了在时空维度上的逐步推理，从而能够解决过去静态模型无法处理的复杂视觉任务。

从 Veo 2 到 Veo 3 的巨大性能飞跃表明，我们正处在这项技术爆发的前夜。目前我们看到的性能，很可能只是模型真实能力的「下限」。

这不禁让我们思考一个更深远的问题：当「帧链」推理变得像今天 LLM 的「思维链」推理一样成熟和可靠时，AI 将能解决哪些我们今天甚至无法想象的、复杂的时空问题？

我们可能正在见证 AI 掌握物理和空间智能的开端。

参考链接

论文项目主页: https://video-zero-shot.github.io/论文原文 (arXiv): arXiv:2509.20328v1

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

15天前