2025年9月,谷歌DeepMind公开了Veo 3视频模型的论文,这事一出来就炸了两个点:一是这模型号称有“零样本能力”,能像GPT-3那样没专门训练就干活;二是论文里8个作者,没一个来自美国,连本科在美国读的都没有。

更有意思的是,它还懂物理规律,知道木头能烧、羽毛扔水里会飘、皮球掉地上会弹,这就不只是“看画面”了,是在“理解”画面里的世界。
Veo 3到底有多牛?零样本就能搞定分割、修图这些活本来想觉得这能力也就那样,毕竟现在AI功能越来越多,但后来发现它还能“操控”视觉内容。
比如修图,要在图里加个花瓶,它不光能加上,还能保住周围的光影细节,不会显得很假;甚至让它把图里的动物都挑出来排成一排,它也能数对数量,正确率比上一代Veo 2高太多。

他说这篇论文只是“评估”Veo 3模型,不是“开发”Veo 3,模型是Veo和Gemini团队早就做好的,他们团队只是测测这模型能干啥。
这跟OpenAI当年做GPT-3不一样,GPT-3的作者是真的从头到尾把模型训练出来的,两者的贡献根本不是一个量级。
如此看来,说“美国科研不行”纯属想多了,而且这活是在DeepMind多伦多办公室做的,加拿大作者多也正常,近水楼台先得月嘛。

有意思的是,这位第一作者还在清华大学待过一年,做研究实习;论文里还有位第二作者Yuxuan Li,是咱国内的;还有个华裔加拿大人Shixiang Shane Gu。
这也能看出来,现在AI科研早不是哪一国的事了,到处都是人才流动。
其实现在的AI研究分工越来越细了,有人专门做模型开发,比如训练Veo 3的团队;有人专门做能力评估,比如写这篇论文的团队。

不是美国没能力做,是这次的活刚好落在了多伦多的评估团队手里,而这个团队的人刚好不是美国人。
更何况美国在芯片、基础算法理论上还是领先的,只是视频模型这种应用层研究,现在各处都有优势,加拿大靠多模态数据多,德国在物理建模上强,中国也有不少人在视频推理上发力,全球人才分布越来越均衡了。
总的来说,这篇Veo 3论文最有价值的,不是作者来自哪,而是它证明视频模型快到“GPT-3时刻”了。

就像当年GPT-3让NLP从“一个任务一个模型”变成“一个模型搞定所有”,现在Veo 3也在让视觉领域往“通用基础模型”走。
以后可能就不用再为分割、修图、检测分别装不同的AI工具了,一个通用视觉模型就能搞定。
至于作者国籍的争议,说实话有点没必要,现在科研早就是全球协作了,谁能做出好技术、解决实际问题才重要。

以后咱们普通人可能会更直接地感受到好处,比如修图不用学复杂技巧,AI看提示就会;或者想做个短视频,AI能自动生成符合逻辑的画面,这比纠结“谁写了论文”有意思多了,你说对吧?
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237