> 自媒体 > (AI)人工智能 > 临近机器人GPT-3时刻,具身智能开源模型的加速演进
临近机器人GPT-3时刻,具身智能开源模型的加速演进
来源:硅谷101
2025-09-14 10:53:05
160
管理

作为人工智能和机器人交叉的前沿领域,具身智能是当今科技领域最具潜力和前景的方向之一。其中,机器人/具身大模型扮演着“中枢大脑”的角色,使机器人能够在复杂多变的环境中实现自主学习和持续进化。因此,大模型的研发已成为推动机器人产业——尤其是通用型机器人突破发展的关键环节。

9月8日,中国的具身智能公司自变量机器人开源了他们的具身模型WALL-OSS,紧接着的9月9日,美国的具身智能公司Physical Intelligence(简称PI、π)也开源了他们的π₀.₅模型。中美两家公司几乎同时开源了自己的模型,这并非偶然。2025年,具身大模型的开源生态正在进入百花齐放的发展阶段。

这一态势让人联想到过去几年里以ChatGPT为代表的语言大模型演进路径:从2018年开源社区初步兴起,到2020年5月ChatGPT-3引发全球瞩目,语言大模型用了三年时间走向成熟。那么,机器人大模型距离属于它的“GPT-3时刻”还有多远?

本期《硅谷101》,主播泓君邀请了自变量机器人的CTO王昊,以及Physical Intelligence的研究员柯丽一鸣(Kay Ke),她是π₀、π₀.₅论文作者,一起来聊聊今年机器人模型领域重要的突破、当前还面临着哪些挑战、对比下中美的机器人发展路径有何区别,以及还需要多久才能在全场景落地。

图片来源:Physical Intelligence

泓君:为什么你的判断是100万小时?以前我们在说,人成为一个领域的顶级的学者专家,有个1万小时定律。包括我观察我家宝宝学吃饭的过程也是,她在非常小的时候,拿着勺子把饭喂到嘴边都是喂不准的,但她每天练习这个事情就慢慢学会了。但为什么机器人要训练出这样的灵活度,就需要比人大得多的数据量?

柯丽一鸣:我有一些很粗糙的想法,我们PI自己在做研究的时候,有个重心叫做跨本体迁移,就是希望在不同形状、不同类别的机器人上收集的数据,能适用到别的机器人上,让它更快地学会一个任务。

人类能做到这点可能和基因、躯体有一些关系,毕竟人类有一个非常好用的感知器,就是眼睛,现在也没有哪个相机敢对标人眼,还有我们的关节,这些物理的、天生的东西,我觉得是人行动力的基石。

我个人比较相信,可以用一些算法上的优势,去盖过硬件上的不足。但罗马不是一天建成的,咱也不能指望机器人马上就能像宝宝一样学得这么快。机器人如果要快速学习新任务的话,它之前还是得有非常多的积累。刚才王昊也提到、并且我在PI也看到的一点就是:某个机器人上收的一些任务数据,是可以帮助其他任务做得更好的,让新的任务也许就不用那么多数据。

王昊:其实和人比的话,我觉得对机器人来讲还是太不公平,核心就是因为人其实有“预训练”的。整个生物界在大规模的进化过程中,有两个非常核心的点:一是在进化过程中,人积累了很多先前验证的东西,比如跟世界交互的认知,关于物理世界的应对的策略,这些其实都写到了基因里;另一方面,人其实在不停地进化自己的硬件,整个生物界都是这样,大家能不用“智能”解决的东西,就尽量用“硬件”解决,所以很多生物体都会进化出一些结构,比如说大肠杆菌,它就不用长眼睛,只要对有化学、温度敏感的一些感知,就可以去适应周围的环境。

我们现在正在做事,就是帮助机器人做它的预训练模型,虽然看起来要覆盖人类进化的几亿年的时间,但其实也不太一样。第一是因为机器人是可以进行大规模复制的,不同机器人之间可以共享它们的经验,我们就可以快速构建机器人的预训练模型,让它能够具备对物理世界的感知、理解能力。当然这个过程也是让机器人越来越熟悉自己的身体,就像刚才Kay说的“跨本体泛化”,我们就是让不同的机器人(模型),适应不同的身体,并且让它能够互相感知到身体的不一样,这个很重要。

其次在人的学习里面,所谓1万小时理论还是有很多不一样。人并不是一定时间内专门去学这一个任务,学完了再学下一个新任务。你开始教宝宝去做某件事情的时候,比如说拿一个东西,他可能精确度也不够、抓不准,所以就把这个东西扔到一边就不管了,去玩别的玩玩具、搭积木什么的,而过一个月之后你会发现,拿东西这个任务他在并没有花多少时间学习,但是他已经会了,这也体现了人在后天和环境交互过程中学习,其实也是一个多任务并行的学习。它可以从不同任务中学习到这种底层的、共同的物理结构,这种共同物理结构就会帮助它学习新任务时,减少它所需的数据量。

所以现在我们训练机器人时也是这么做的,我们用尽可能多样的数据、覆盖各种能力的任务,去构建这个大的数据体系、构建机器人能力,它也许在学习新的任务的时候,需要的数据量就会大大减少。所以刚才说机器人需要百万小时数据,核心就是解决两个问题,第一是覆盖过去人类长时间进化这个预训练的过程,我们需要通过多样的数据,去帮助机器人构建这种基础能力。第二就是在学习新任务的时候,我们也要利用它在旧任务学习中,形成的这种通用能力,让他能够泛化到新能力上。所以在数据上、时间长度上不能完全类比人类,但我觉得这个学习历程和背后所反映的规律可能是一致的。

图片来源:Google

柯丽一鸣:我觉得可以分成两个问题,一个是我们之前做了什么,另一个是对整个领域来说什么东西很有用。

π₀.₅应该有一篇后续的论文,探讨了我们对π₀.₅训练中的一些考量,其中有提到过,我们在π₀.₅的时候,引入了一些网络数据,我不知道严格意义上这算不算合成数据,但确实是希望通过引入一些外界各种各样的知识,去给它一种通用和通感,而不是直接告诉机器人应该什么动作。

而合成数据对于领域有什么作用,我觉得没有一个很清晰的定论。现在有些人觉得,如果能够大批次的生成成本低廉、有可控性、而且对机器人有用的的数据,那会是很好的,但现在比较大的困难就是怎么弄出这些数据、怎么样证明它有用,这还是比较前沿的研究问题。

王昊:现在头部的机器人公司的数据量,因为有真实物理世界限制,大家可能都集中在几万到几十万这个范围内。但这个和训练像GPT-4这样级别的语言模型去比,数据量还是少很多。我们除了用最重要的现实世界真实数据、机器人上的数据,其实也会用一些其他方面的数据,但是每一类型的数据肯定都是有自己的问题的。 机器人的真实的数据是比较贵的,受限于机器人的硬件场地、操作员的收集速度等等因素,所以大家有了很多改进方法,不仅可以依靠真实机器人本体,也可以做一些低成本的本体,甚至不用做完整的本体,只有一些穿戴式的传感器设备,都是可以去采集的。

其实我们也用了很多生成模型去做合成数据,但合成数据主要是缓解一些视觉和现实的分布差异问题,它很难去生成带有物理交互过程的数据,这种数据还是得来于现实世界的采集。 还有一类数据,就是人类的视频数据。这个规模非常非常大,多样性也很多,成本相对来讲也比较低,我们也帮很多公司在做这方面的探索。但要靠这些数据帮机器人做动作级的生成还是很困难的,现在具身模型从视频数据里学到的,还是在动作意图上,我们从人类的视频里,让模型学到了一些高级的语义理解、一些任务规划。

但是这种规划是通过视频,而不是语言的方式机器去学习的。包括像Genie 3,我觉得它是非常好的一个工作方式,它就是从互联网、从游戏环境里面得到了大量高质量的数据,所以通过视频生成的方式,可以做一些动作控制,是未来是一个很好的方向。虽然这个环境相比于现实有些简化,但它仍然可以作为训练的环境,去帮你去做这种交互。 所以在数据上我们还有工作要做,我想每家公司在数据的投入占比可能都不太一样,这也取于整个公司的综合的实力,比如运营能力、硬件的水平,对数据的使用规划不一样,会让你的数据成本也不一样。

中国和美国相比,可能硬件成本、人力成本是比较大的差异。就算在同一个地区,运营能力、数据过滤、清洗、任务生成分发、不同的场景里面的数据采集能力、场景的快速搭建以及恢复的能力,这都会影响数据成本。

泓君:所以你们公司的数据成本类比于其他机器人公司,大概是在什么水平?

王昊:这个很难在不同公司之间进行比较,因为大家对数据质量、多样性的要求可能不一样。但是对于我们公司来讲,数据肯定是在整个研发成本里占相当大的比例了。

图片来源:自变量机器人

泓君:在今年的9月8日,你们WALL-OSS的开源模型是正好上线了,请你给大家简单地介绍一下,你们的这个开源模型是什么?以及它的行业特点是什么?

王昊:我们是持续地发扬开源精神,也吸收了很多经验,所以是用了大概几万小时的真实世界的数据,训练了一个具身的基础模型。

我们是在一个统一的框架下面,让它可以既可以去做思维链、也可以做动作的生成。我们基于已经训练好的基础的视觉语言模型去做扩展,让它具备比较强的视觉理解、空间推理、多语言的指令遵循能力,同时它的动作的生成精度也比较高。这是我们观察到的,目前具身的开源模型上还比较欠缺的一些能力,我们也希望这次开源能够对具身智能行业有比较好的补充,让大家可以更好地用我们的基础模型,去做一些长程任务、解决一些复杂任务。

要解决这些长程任务,就需要更好的语言遵循、更好的空间以及因果的推理,也希望我们这种端到端的推理、规划加动作的执行模型,可以发挥作用,被社区用起来。

泓君:所以你们模型主打的点是什么?我觉得行业里面做模型玩家们,方向都还挺不一样的,比如有些是专注在精细的操作上的,像谷歌就很擅长于折纸的这些动作,像PI是希望有更强的泛化能力。如果用一句话去总结你们的优势,你觉得你们在机器人领域最关注的点是什么?

王昊:我们最关注的点是机器人的泛化和它的长程任务的解决能力。解决长程任务就意味着,它一定得有比较强的泛化能力,因为解决任何一个长序列的任务,它背后面临的都是变化的场景,这个任务可能遇到各种失败情况、各种没见过的操作对象,所以都需要它有很强的泛化。

泓君:比如那些长而复杂的问题,请大家举一个例子。

图片来源:X.com

泓君:我看得出来你很热爱机器人。

王昊:我一直都觉得开源是非常重要的事情,开源意味着我们可以站在巨人的肩膀上继续前进。我们可以基于已有成果做更多的改进,社区开发者的反馈也会帮助到开源的公司,开源公司可以从中吸取到经验,然后把这个技术路线思考得更加深入。一般的高校、或者一些小型的企业,他们可能没有能力去做基础模型,但是如果能够使用这些基础开源模型,他们就可以去做应用,把它用到各个方向,丰富整个生态,这也是一个非常重要的事情。

AI 的研究我觉得跟大模型之前有很大不一样。过去,我们可以看到AI和大模型的研究是非常离散的,在真正形成一个社区之前,可能做研究的只有两、三个人,大家疯狂地研究一个算法,更多是以论文发表作为第一要务,目的是占据技术的主动权。但有了社区和整个开源体系之后,大家更在乎的是,怎么在一个工程化的体系下,把这个工程基础打好,让这个社区更加繁荣?个人是通过什么方式给社区做贡献?大家的荣誉反而来自于这样的事情。这样也就会促使开源模型的技术不停地发展。所以我觉得开源是一个非常好的事情,既可以从中学习到新的东西,也可以看到你的东西可能对别人帮助。

泓君:大家觉得现在模型公司在判断一个模型好坏的核心因素是什么?现在大家不仅在拼各自采集的数据质量,同时在模型层可能有非常多不一样的技术路径,比如说是不是用高频控制的方式,是不是用 system 2 system 1的两个system的架构?大家可以聊一下模型层上不同的技术路径,以及你们看好的方式?

图片来源:自变量机器人-开源具身智能基础模型WALL-OSS

王昊:从自变量机器人公司的角度来讲,我们是非常相信,数据驱动的端到端的模型搭建的方式的,我们开源了WALL-OSS模型,也是基于这样架构去构建的。不管有多少模态、不管你是语言、视觉还是动作,它们都应该在同一个空间下被表征、被对齐,分层对它们来讲就是一个非常不利的因素,所以我们应该尽可能避免人类的分层带来信息的损失。

但是从另外一方面来讲,你都端到端训练了,那模型可以做得很大,可以做到几百亿、千亿的矩阵模型,那真正要去使用的时候怎么办?不可能在端侧需要非常高频控制去部署这么大模型,所以在推理的时候,我们反倒觉得模型是可以分开的,可以把更慢的任务过程可以放在云端去处理,更快的任务过程放在物理端侧,再由梯度回传更新整个系统参数,这个过程是非常非常重要的。

泓君:我们说其实两层架构的模型,它有一点点类似于人脑的大脑跟小脑,比如说有一层负责理解与规划,还有一层就是负责高频输出的控制,就像大脑去掌管认知跟决策,小脑去掌管运动控制。为什么你们不用这样的一个架构?

王昊:我们是一种端到端的训练,很难在模型内部把某些参数完全分成system 2,比如把某些系统分成快系统、直觉系统等,但是我们可以训出一个非常大的端到端模型,它可以具备非常强的具身通用能力,让具身的通用能力既包含理解推理,也包含动作生成。

但你实际在部署的时候可以有很多方式,比如把擅长动作部分给蒸馏压缩出来,然后擅长语言推理、视觉推理的部分给它放在云端等等。利用类似的方式部署,在推理过程中做很多优化,但训练的时候它还是一个统一架构。

泓君:就是推理跟控制在训练的时候是在一起的。那Kay你们是怎么做的?

图片来源:Physical Intelligence

柯丽一鸣:我们现在还是非常开放的一种态度,我们觉得现在机器人大模型还没有达到像GPT-2的时刻,我们希望能够尽快地达到这个地步,但是现有的模型和表现还是有一些差距。数据和数据驱动的算法是我们最看重的东西,但是具体怎么样去设计这个算法?模型的架构如何搭建?甚至硬件系统怎么设计?数据怎么收集的?我觉得一切工作还是为了数据驱动在服务。

泓君:所以它到底是把推理跟控制分开做成两个,还是说端到端的解决是完全放在一起?你觉得这个其实反而不是现在最重要的问题,可能这几种路径都可以,我感觉现在整个机器人模型领域大家的技术路径看起来也是没有统一的。

柯丽一鸣:我觉得这句话非常有意思,我最近在和一个学弟吃饭的时候还在聊,因为大概从三、四年前开始,我们能感知到整个行业是有变化的,之前学术界会更加的散一些,大家的方向、想法、算法还有关注的问题都非常的不一样,而现在自从 VLA 就视觉语言动作模型出世以后,变得流行起来,而且很多人跟进,反而让我觉得现在越来越多的方面开始趋同化了。

泓君:你觉得趋同化表现在哪方面?从哪些各种各样不同的方向变成了同一个方向?这个同指的是什么?

柯丽一鸣:其中之一是模仿学习。我是2018年开始做模仿学习的,那个时候行业研究不多,也没有很多真机的研究可以 follow ,在当时会觉得这是一个不那么主流或者大众的一个想法,2018年当时是已经看到了波士顿这个跳,毕竟人形机器人跳即使到现在直接用模仿学习,可能也是一个比较难的挑战。

业内的很多人开玩笑的时候就会说, 60 年代咱机器人就把人类送上月球了,机器人就朝着火星去了,这是成功的机器人的方法,它就直接变成火箭学科了,只有我们这些机器人研究者还没搞明白它怎么做成功的,还在这里搞机器人,虽然是玩笑,但也说明这个行业内,有一波又一波的接力探索,就包括 2000 年左右自动驾驶的探索,还有后面这些人形机器人,波士顿动力为首的这些力量。

2000 年初,其实还有一个Willow Garage,也是在美国机器人学术界里面比较有名、当时很红火的一家创业公司,当时他们就主推了一个叫PR 2 的机器人,也算是移动、但不是人形机器人的一个老祖宗。所以从之前那个时代看的话,我会觉得大家的研究方向都不一样,有的人做车、有的人做手,这些都是散布在机器人行业里各处的,而现在确实因为大模型的红火,模型的通用性被强调,很多人开始想说能不能把这些东西糅合在一起,这算是一个非常有意思的趋同化的发展吧。

Willow Garage,图片来源:Business Insider

泓君:我看到现在业界,从创业方向看的话,大家又有很多的不一样,比如说有足式机器人,下面是一个人形机器人自己走路的;还有轮式机器人,它可能就注重于手部的操作,走路的部分它用轮子滚就可以了。很多公司也在想,我能不能有一个上半身跟下半身都能同时操作的机器人?因为很多机器人它可能要么上半身,要么下半身,但整体上大家可能都想把模型做得更大、功能做得更通用。

柯丽一鸣:我觉得“同”说的是,很多原来做在不同形态机型上的人,会用不同方法,现在大家都非常的开放,会说我们要不要试一试视觉语言的这种大模型,你说的这种上半身、下半身的形态,其实 π₀.₅做的就是这个事。

泓君:Kay觉得现在整个机器人模型连GPT-2它的水平都不够,王昊你怎么看?

王昊:我认为到GPT-2的水平了。用这个类比的话,GPT-1基本上是一个概念验证,通过预训练加数据的方式,可以处理一些任务。但到GPT-2的时候,我们开始验证它规模化的力量,通过大幅的增加模型参数和训练数据,就可以展示出规模化带来的能力提升。可能我们规模再做得更大,就能到GPT-3的水平了,大家就能看到很多能力的涌现了,所以我会觉得现在就是在GPT-2的这个阶段。

我们现在基本上已经知道:规模化是唯一的可靠路径了,所以我们要在这个阶段,疯狂地积累数据,提升模型规模,同时搭建支持具身智能的各种基础设施,所以说人形机器人目前是已经处于GPT-2的阶段是比较客观的。

图片来源:自变量机器人-已开源的具身智能基础模型WALL-OSS

泓君:那你觉得机器人领域到定义的GPT-3时刻,大概还有多长的一段路要走?

王昊:现在在谈我们在机器人领域的GPT-2到GPT-3 ,从语言模型来讲,是有一个不一样的地方。当年在做语言模型时候,大家不知道这条路线是否真的可以走通,中间产生了很多分散式的探索又汇聚的过程。现在我们是明确的知道、而且看到了这种规模化带来的提升,所以对于我们来讲,路径和目标更加明确、更加唯一,所以我预测会在1~2年的时间,我们完全可以达到GPT-3的这个水平。

泓君:要1~2年的时间还挺快的。我注意到在美国,我们聊起机器人的话,大家都是想做这种通用机器人,然后再朝一个超大规模的模型做,如果类比于自动驾驶的话,就是美国上来就想做的是L4、L5级的自动驾驶。但是我们看到中国的发展方向,我感觉还是有很多的小而精的创业路线,就好比中国企业在做自动驾驶的时候,首先想到的是能不能在一个园区、一个码头,把这个场景先落地了,做一个非常垂直的小而精的产业。二位怎么看机器人的这两种方式,以及在产业的发展上,最终结果会有什么不一样?哪条路径能跑出来?

王昊:我觉得这个得结合中美各自的优势来看这个问题。确实美国的现在路径就是自上而下的不计成本的,他们会优先做一个接近于AGI的超大模型,有这个基础之后,再去想应该怎么去做。这也是因为美国在算力上的优势,最顶级的芯片、最大量的算力集群都在美国,所以路径更加倾向于用无限的算力,去探索能力的边界。

但中国其实芯片上确实有一定的限制,所以这也倒逼了中国的企业,研究思考在有限的算力下如何实现更高的效率,但说中国企业现在在走小而精的技术路线,我倒不是很同意这一点。

中国其实是拥有全球最大的互联网生态移动应用场景,这个场景优势以及中国在硬件领域拥有非常完善的产业链,这个是美国其实没法比的。其实国内有很多顶尖的研究机构和非常好的创业公司,都是非常深刻地去从第一性原理的角度去思考,非常深刻地去理解Scaling law这件事情,它其实是通往AGI的必经之路。

我们坚信必须得有一个强大的、无所不能的基础模型,才有可能把这基础模型用到各种垂直领域,让它得到更加高效的部署,但这个过程不能反过来,必须得有大而通用的基础,才会有小而精的发展。在实现的路径上,其实国内更像是上下结合,双轨并行,一方面尽可能多的去考虑场景,尤其是考虑这种通用泛化的场景可能带给我们什么,同时又去迭代我们自己的通用基础模型的能力,才能更快地让机器人在现实世界获得更好的反馈,帮助大家实现商业闭环以及开始形成数据飞轮。

图片来源:自变量机器人

泓君:所以你个人也是想做通用的模型的?

王昊:对,我们一定会去做通用的模型,这个是很重要的。

柯丽一鸣:我觉得现在两边各自的生态环境有很多的历史因素。一方面国内经济高速发展,经验足够,很多创业的成功,都是因为公司活下来了、公司商业化能够做好,就促使了国内创业的人会从解决问题、解决用户的需求来出发,因此会有很多人去深耕垂直领域。之前我还在网上看到什么中国的除草机器人“暴杀”这个欧美家庭,看到它以后,我觉得我都要给我朋友去安利,我觉得中国企业是很擅长做这样一个商业化的一个事情。

同时,中国制造业摆在那里,机器人确实是有很大的硬件需求,在国内针对商业需求做硬件这个优势,现阶段来看,就没有谁能够比得过国内。因此国内现在的生态里,很多人的创业都是一边保证着商业的成功,一边做一些其他探索。

之前我说自己毕业的这一年比较幸运,因为如果早两年毕业(可能我就做不下去了),当时有很多(早毕业的)朋友,他们机器人研究做得很优秀,可是都转行了,都转去做大语言模型、做强化学习。做机器人能让你锻炼到技术,但并不是做机器人本身,与其说美国很多公司一直都在做大而通用的模型,而不如说是这个时代恰巧让我们在2024年前后,涌现了一批相信这个道路的人。

这个恰巧的因素也是归功于OpenAI把大语言模型这件事做通了,给整个行业的一个反思和震撼。直到现在,我在加入PI的时候,和他们聊天讨论要不要去做,我就在问:你们做人型机器人行吗?你们要做人型的话是不是要烧很多钱?道路怎么走?商业化怎么走?这公司怎么活下来呀?从商业化的角度上来说,其实并不是那么明朗的一件事情,所以我才会感叹这些公司真的是凤毛麟角,能够有这么一个时机成立,能够有人去相信他也许能把事情做成。

而在这样的公司出现之前,其实美国的工业界是有很多机器学习的应用公司的,其中可能比较有名,也和我们公司渊源颇长的一个公司,就是Covariant Robotics,这个是伯克利的一位非常有名的教授所创立的,这些个人的创业的经历启发到了后面的人。因为在外界看来, Covariant就是因为深耕了一个商业的点,所以它商业做成了,但是它通用就没有做得那么好。我们公司最大的目标是想要做通用、想要做数据驱动,所以我们是很小心地避免做一些短期的商业项目,有这么一个历史因素,导致了现在的公司生态是这样。

图片来源:Covariant Robotics

泓君:我理解Covariant其实更多的是做灵巧手,而不是在研究模型。

柯丽一鸣:这件事情有点好笑,因为他们公司刚刚起步的时候,创始人Peter Abbeel作为机器学习机器人的一个领军人物,也表达过他们想把机器学习的机器人做到现实生活里,做到通用,当然可能是因为他们在物流上面做的太成功了,大家就记得他们的另一种模样了。

泓君:所以他们内部也是在研究通用的解决方案跟模型层的解决方案?

柯丽一鸣:我相信他们在早期的时候应该是有这种探索的,因为当年他们开始做的时候,确实没有人知道机器学习、机器人的应用能做成什么样的,所以他们肯定是做了一些探索的,现在的很多企业和研究者就是受到他们的经验的启发,选择走了现在的路。

04 商业化与落地前景

泓君:我看大家在研究机器人的时候,都希望机器人能够帮大家做一些家务,比如说叠床单、叠衣服,把碗塞进洗碗机,大家觉得未来真的能有个这样的家用机器人帮我们做家务吗?你们觉得还需要多久才能拥有这样的通用型机器人?

王昊:做家务看似简单,但我觉得可以作为一个完美的机器人的图灵测试了。因为这个过程包含了具身智能机器人领域所有的精细动作,比如切菜,要有精细的力道控制;一些易碎东西处理时,要有非常丰富的感知;也有一些长程规划,比如得看菜谱去做菜、看说明书去使用某个电器、以及各种意外情况的处理等等,基本上已经包含了机器人的所有挑战。

要完全实现到这个程度,还是得分步走。我觉得在两、三年以内,我们可以在半结构化的环境里面,让机器人做一些简单的事,比如仅限于厨房内,帮你做一些简单的菜、洗碗等等,这些我觉得还行,但说如果要在完全开放的厨房里面、所有的事情能做到,我觉得还需要五年左右的时间。

图片来源:自变量机器人

泓君:五年左右,实现机器人在厨房里面做饭、洗碗?

王昊:对,我觉得是有可能去实现的。但那时还是有很多情况需要大家容忍,比如虽然机器人在各种任务上的成功率都比较高了,但也并不是100%,还是存在失误的可能,所以如果我们允许机器人可以和人协作、获得人类的帮助,我觉得5年是可以进入到家庭里面的。

我现在是比较乐观的,因为我觉得机器人领域的发展走在正确的道路上,有了Scaling law这样快速发展的规律,这在整个人类的历史演进中,我都觉得很幸运的事情,因为有一条看起来很明确路径,可以告诉我们怎么做:你只要投入算力和数据、迭代模型的架构、提升机器的能力,那就能肉眼可见地看到机器人的提升。

所以虽然现在有很多问题,让我们觉得很困难,但放在5年后再去看,都是可以被解决的,而且模型一定可以跨越到一个阈值、进入到新的阶段,所以我预测5年这个时间是非常合理的。

另外关于5年这个时间点,其实也需要审慎一点,因为机器人不像纯软件那样可以轻资产快速迭代,机器人还是受限于物理世界的物理定律,硬件得发展,还要全方位突破数据、算法、供应链、商业模式等等因素,才有可能真正做到那个地步。

泓君:我觉得是一个蛮大胆的预测。

柯丽一鸣:我觉得5~10年落地应该是可以的。现在的模型能力和算法显然还没有达到“我们只要商业化它就能做出产品”的这个地步,但行业的迭代速度确实非常快,再加上大家有这么多的热情和投入,我相信在两、三年里,甚至可能每一年,都会有新的很大的变化。

另外,我们具身智能行业其实和自动驾驶、甚至火箭升天这些传统的机器人行业有些不一样的地方。我们可能更像扫地机器人,就是最早的扫地机器人其实不完美,需要用户明白它能做什么、不能做什么,这就是一个比较好的商业化典范。以这个为目标的话,我保守估计是需要5~10年做出这样的产品,它可能偶尔会出错,但是它犯的错是在用户的范围里的,这样也能成为一个可以帮到用户的产品。

我有个问题很好奇,有的机器人公司是以“产业化”为目标的,想要做一些商业化应用的东西,这些公司该如何兼顾商业化与研发?

图片来源:自变量机器人

王昊:我觉得这个问题挺好的。因为作为创业公司,从第一天我们就在思考,怎么做既能仰望星空,也能脚踏实地?由于现实的因素,不可能达到AGI再去思考商业化,我们现在的策略就是,尽可能在我们通用模型的基础上,让它进入一些场景里做一些事情,这个场景必须和最终想实现的通用场景是比较接近的、它是可以去泛化的,所以我们尽可能的不去碰那些比较封闭的场景。

像一些公共服务、养老服务的场景就非常好,这样场景和通用机器人的最终应用场景有一些类似的地方,能涉及一些复杂的任务,比如和人的接触,也涉及到没有那么复杂的,比如只是打扫卫生、拿东西、处理食材等等。从这个角度来看,这些就是好的场景,因为和最终的目标接近,你可以在这些场景里,不断地迭代、检验通用模型的能力,也可以获得非常宝贵的数据反馈。但要保持这个选择初心,很重要的一点是:得有很强的商业化路径的定力。

另外一个比较重要的点,是公司的组织能力。因为一个公司的组织能力、组织结构,决定了这个公司的上限,我觉得公司一定要以通用模型、以基础模型作为目标,达到一个完全没有壁垒、高效协同的一个组织,才可能促使你在中间迈出的每一步都不会走错,最终能使你达到终极目标。

泓君:所以你是比较注重训练的场景是否能有商业化应用的,而不是一个在封闭化场景里面就能实现的一个需求。刚刚说的家用机器人帮我们做饭、洗衣、叠被子,这样的使用场景能不能让机器人有足够销量,去养活一个机器人公司?

王昊:我觉得是很有希望的。因为现在整个机器人的产业的规模还没有起来,所以等规模起来后,硬件成本还有非常大的降低空间。随着模型水平的提升、加上硬件成本降低,几年后的价格,会让用户的接受度更高。

其次从这个功能角度来讲,如果我们可以帮普通用户去做很多事,大家会非常乐意接受这样的产品。现在大家难以接受机器人,是因为机器人似乎只能跳跳舞、做一些情绪价值的陪伴,好像没有其他功能,以前机器人没机会向普通用户展示各种应用,但未来我觉得是有很多展示机会的,这个想象的空间是很大的。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
素素鴉(普通会员)
文章
1669
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索