> 自媒体 > (AI)人工智能 > 视频模型的 GPT-3 时刻:谷歌 Veo 3 正在重新定义计算机视觉
视频模型的 GPT-3 时刻:谷歌 Veo 3 正在重新定义计算机视觉
来源:不二小段
2025-10-01 13:02:49
64
管理

今天,我读到一篇 Google DeepMind 发表的论文,标题很直接,叫《视频模型是零样本学习者和推理者》(Video models are zero-shot learners and reasoners)。这篇论文也许能够说明,计算机视觉领域可能正在迎来它的「GPT-3 时刻」。

大家可能还记得几年前,NLP 领域的 GPT-3 时刻。在 GPT-3 出现之前,我们有各种各样的模型:一个用于翻译,一个用于情感分析,另一个用于文章摘要。每个任务都需要一个专门训练的专用模型。

然后,大语言模型(LLM)出现了。它们基于一个简单的理念:用海量的网络数据训练一个巨大的、通用的生成模型。结果是惊人的。这些模型获得了所谓的「零样本」(zero-shot)能力,你不需要为特定任务去微调它,只要用自然语言给出指令(也就是 prompt),它就能完成各种任务,从写代码、做数学题到进行深度研究。NLP 领域从此进入了「一个模型打天下」的时代。

这篇论文的核心观点是,今天的视频模型,正走在和当年 LLM 完全相同的道路上。它们也遵循着同样的理念:在网络规模的数据上,训练一个大型的生成模型。

那么,这是否意味着,我们很快就能用一个通用的视频模型,来取代掉计算机视觉领域里那些琳琅满目的专用模型(比如用于物体检测的 YOLO 系列,或者用于图像分割的 Segment Anything)呢?

这篇论文通过对 Google 最新的 Veo 3 模型进行的大量实验,给出了一个非常肯定的答案。他们测试了超过 62 种定性任务和 7 种定量任务,生成了 18,384 个视频来验证模型的性能。结论是,Veo 3 确实展现出了惊人的、跨领域的零样本解决视觉问题的能力。

今天,我们就来深入解读一下这篇论文,看看视频模型是如何从简单的「像素生成器」,一步步走向「视觉世界通用理解者」的。

视觉智能的四个层次

为了系统地展示 Veo 3 的能力,研究人员提出了一个视觉智能的层次模型,这个框架也为我们理解视频模型的能力提供了一个清晰的路线图。它分为四个层次,层层递进:

感知 (Perception):理解视觉信息的基础。建模 (Modeling):在感知的基础上,构建对物理世界的认知模型。操作 (Manipulation):有目的地改变和编辑它所感知和建模的世界。推理 (Reasoning):在时空维度上,进行多步骤的复杂逻辑思考。

接下来,我们一层一层地看。

1. 感知:当模型看懂世界

在传统计算机视觉中,「感知」任务通常是各司其职的。你需要一个模型做边缘检测,一个模型做图像分割,另一个模型做超分辨率……。

而 Veo 3 仅通过 prompt,就能零样本完成所有这些经典的计算机视觉任务。比如,你给它一张模糊的图片,告诉它「消除这张图片的模糊」,它就能输出清晰的版本。

更有趣的是,研究人员在测试「边缘检测」这项任务时,发现了一个「细节悖论」。

他们使用标准数据集 BIPEDv2 对 Veo 3 的边缘检测能力进行评分,模型的 OIS 分数是 0.77。这个分数不错,但还没到顶尖水平。但当他们仔细检查 Veo 3 生成的边缘图时,发现了一个奇怪的现象:在很多情况下,Veo 3 生成的边缘图比数据集的「标准答案」还要准确和精细。

上图:「帧链」推理的经典案例——走迷宫。模型需要逐帧规划路径,从起点(红点)移动到终点(绿点),并且不能穿墙。

「帧链」推理让 Veo 3 能够解决一系列需要视觉规划的复杂任务,比如:

走迷宫:模型能生成一个完整的动画,展示一个物体从迷宫起点走到终点,全程遵守规则。完成视觉序列:类似于瑞文推理测验,模型能根据前几个图形的变化规律,推断出最后一个空格应该填什么图形。工具使用:在一个测试中,模型需要生成「从鱼缸里取出核桃」的视频。它成功地模拟了人使用工具(比如一个勺子)来完成这个任务。

这种在视觉媒介中进行逐步推理的能力,是静态图像模型所不具备的,也是视频模型能够成为通用视觉基础模型的关键。

惊人的进步速度:Veo 2 vs. Veo 3

如果说以上的能力展示还不够有说服力,那么模型版本的迭代速度和性能提升幅度,则为「范式转移」的论点提供了最强有力的证据。

论文对比了 Veo 3 和它的前代产品 Veo 2。根据发布信息,Veo 2 在 2025 年 4 月可用,而 Veo 3 在 2025 年 7 月就发布了,中间只隔了大约三个月。

在这短短的时间里,性能提升是巨大的。以「走迷宫」任务为例,在一个 $5 times 5$ 尺寸的迷宫上进行测试(10 次尝试内成功就算通过),Veo 3 的成功率达到了 78%。而仅仅三个月前的 Veo 2,成功率只有 14%。

短短三个月,解决视觉规划问题的能力提升了超过 5 倍。

上图:一个经典的运动规划难题(钢琴搬运工问题)。Veo 3 在尝试将沙发搬到另一个房间时,违反了物体的刚体属性,直接「穿模」而过。

总结

尽管存在这些挑战,但这篇论文描绘的蓝图依然令人无比兴奋。

核心的论点是清晰且有力的:基于和 LLM 相同的基本原理,视频模型正在快速发展出通用的视觉理解和推理能力。它们通过「帧链」(CoF)这一独特的机制,实现了在时空维度上的逐步推理,从而能够解决过去静态模型无法处理的复杂视觉任务。

从 Veo 2 到 Veo 3 的巨大性能飞跃表明,我们正处在这项技术爆发的前夜。目前我们看到的性能,很可能只是模型真实能力的「下限」。

这不禁让我们思考一个更深远的问题:当「帧链」推理变得像今天 LLM 的「思维链」推理一样成熟和可靠时,AI 将能解决哪些我们今天甚至无法想象的、复杂的时空问题?

我们可能正在见证 AI 掌握物理和空间智能的开端。

参考链接

论文项目主页: https://video-zero-shot.github.io/论文原文 (arXiv): arXiv:2509.20328v1
0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
帝王之星(普通会员)
文章
1643
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索