> 自媒体 > (AI)人工智能 > 机器人的 GPT 时刻比我们以为的更近|AGIX PM Notes
机器人的 GPT 时刻比我们以为的更近|AGIX PM Notes
来源:海外独角兽
2025-12-02 12:05:06
182
管理

诞生于我们对“如何捕获 AGI 时代 beta 和 alphas”这一问题的深度思考。毫无疑问,AGI 代表了未来 20 年最重要的科技范式转换,会像互联网那样重塑了人类社会的运行方式,我们希望 AGIX 成为衡量这一新科技范式的重要指标,如同 Nasdaq100 之于互联网时代。

「AGIX PM Notes」是我们对 AGI 进程的思考记录,希望通过学习 Warren Buffett、Ray Dalio、Howard Marks 等传奇投资者们的分享精神,与所有 AGIX builders 一同见证并参与这场史无前例的技术革命。

PM Notes

机器人的 GPT 时刻还有多远?

作者:Max

也许比我们以为的更近。

两个星期前,Generalist 的 Gen-0 研究再一次把机器人的 scaling law 清晰呈现出来——更关键的是,它提出了一个醒目的信号:大约 7B 参数,可能正是具身智能从“能动”跃迁到“通用”的智能临界点。

这与语言世界 GPT-3 的拐点极为相似:当模型规模跨过某个阈值之后,能力涌现,直觉开始被不断刷新。

如果把 2019–2020 年的 GPT-3 视为语言模型的临界点,那么今天的机器人,很可能正站在一个高度相似的节点上。我们判断:未来 2–3 年,很可能会出现能在真实环境中执行广泛任务的“较通用机器人”;而在 3–5 年内,它们有望在多个垂直场景真正实现规模化部署。

在现有机器人版图上,一类是 Pi、Generalist 这一类“具身基础模型”的参与者:上层用 VLM 做高层理解与规划,下层 VLA 的 Action expert 处理底层的连续动作输出和轨迹控制,两者通过信息传输实时协作,已经可以在从未见过的家庭或仓库里完成叠衣服、收拾厨房、整理货架这种十几分钟的长任务。另一头是硬件栈的成熟:廉价但性能稳定的协作臂、关节模组、灵巧手的规模量产,算力从数据中心向边缘设备下沉,低延迟网络和本地推理芯片也在同步演化,让“机器人大脑”真的有机会跑在现实世界的物理频率上。

这跟 GPT-3 时代很像:模型侧有了通用表达能力,硬件和工程侧刚好进化到“够用”的临界点。差别在于,语言模型只需要在 GPU 上跑得动,机器人则要同时满足“理解世界、控制身体、保证安全”三重约束,这让今天的机器人更像是 GPT-3 iPhone 的诞生前提条件,不仅模型要变好,机体与基础设施也要同步成熟成为可以规模化部署的通用平台。

但瓶颈也很明显,真正限制机器人的不是算力,而是数据。区别只在于:我们究竟想用数据去逼近什么样的目标。自动驾驶追求的是单一任务上的极致安全,因为约束条件相对简单,一条高速路、一辆车、一个指标(事故率),可以把所有资本和数据集中到一个窄任务上。机器人世界是“维度爆炸”:厨房和工厂、仓库和医院、办公室和数据中心,每一种场景都是不同的物理分布,不同的物体和失败模式。如果一开始就幻想通用性,数据需求会立刻变成天文数字。

这就是为什么 Dyna、Generalist 等路线都在刻意后撤半步,通过 Fused-VLA(紧耦合),把视觉、语言和动作一起训练,而不再有一个明显独立的 VLM backbone。通过把大模型的通用理解能力和任务特定的动作融合在一起,尤其是直接为某个机器人和场景做成一体化的 VLA,能够优先解决某几个垂直场景的可靠性,把更低的通用性交换为更高的性能和低延迟。

围绕“数据从哪里来”这个问题,业界已经在多角度探索,尝试扩展机器人可用的数据分布,只是下注的空间不同。首先是 world model 路线,核心是:有没有一种能让机器人在沙盒中先前向模拟、先想象再行动的机制。这一路线以 V-JEPA、GAIA-2、Dreamer、Genie 以及 World Lab 为代表。思路是先学一个世界的时序、动态表征:从百万小时视频中学会预测未来帧、物体交互和物理后果。相当于一个看过超级多录像,所以很擅长预测下一帧会发生什么的大脑。但它们还是以“2D 帧序列”为主视角,3D 只是涌现的能力。

World Lab 更进一步,尝试将机器人内部的虚拟预测从 2D 视频扩展到真正可计算、可操作的 3D 世界,并且让这个内部世界尽可能接近真实物理世界的分布。这样就能让机器人大脑在一个高度抽象但物理上合理的数字沙盒环境里,反复尝试、编辑和组合任务场景,通过离线大规模数据进行预训练,在内部世界高效探索动作结果,泛化基础物理常识,从而降低现实环境试错的成本。

不过,这一方法面临两个主要挑战:第一,现实物理世界的复杂性和长尾情形很难通过互联网级 2D 或 3D 数据完全覆盖,模型可能遗漏关键稀有物理规律或任务语境;第二,即使高保真的内部世界能加速知识迁移,sim-to-real 仍然存在不小的分布鸿沟,因此需要额外的真实世界交互数据进行持续校准和对齐,确保训练策略能够实际落地。

而基于 world model 创造的沙盒世界或沙盒棋盘,以 SIMA、Lumine 为代表的各类游戏 agent,就可以在这个沙盒中自我提升,学习怎么在任何 3D 世界里当个有用的智能体。相当于 agent 在里头玩上千万局,学的既是长任务策略也是开放式探索。这样的好处在于极大降低了数据采集成本。比如 SIMA 在新游戏里只靠自我探索 trial-and-error,再加上 Gemini 的文本反馈(相当于 reward shaping critique),不再需要额外人类 demo,就能学会新任务。甚至用 SIMA 2 自己产生的体验数据训练下一代更强的 SIMA 2,再配合 Genie 3 自动生成新 3D 世界,让 agent 在无限新环境里持续滚雪球式学习。Agent 在这里形成了通用操作技能 高层次规划与协作能力,后期有机会通过 sim-to-real 迁移赋能机器人的训练。

纯真机收集路线则以 Physical Intelligence、Generalist.ai 等公司为典型。Pi 收集了 3.5 万小时级别的多机器人数据,横跨 500 不同任务、10 多种具身体、100 真实环境;他们的研究表明,去掉跨机体 跨环境时,模型性能直接退化 50%,而有了 100 多个多样真实环境数据之后,在全新 Airbnb 里的清洁整理几乎能做到和训练环境同水平。再加上 NUMI / UMI 一整套人类遥操作系统,用 iPhone、Oculus、腕戴相机,把人类策略大量投射成示范轨迹;配合 FAST 动作切块、价值函数筛选好轨迹、DAgger 人类纠偏、机器人通过在线 RL 可以一小时学会插充电头、拉拉链等复杂动作。

回到之前的那个问题:我们究竟想用数据去逼近什么样的目标?

Pi 选择了真实数据,因为他们相信“世界就住在物理世界里”,模型应该直接在真实具身互动上练级,模拟只是数据放大器,用来泛化和评估。而 SIMA 和 GENIE 的路线是押注“世界先住在游戏引擎里”,机器人未来再从虚拟走向实体。

我们的判断是:短中期,PI 和 Generalist 展示了一条可行路线 —— 依靠真实世界的数据收集 分层 VLA 工程化技巧,就可以拿到接近“通用家务工”的能力,这条路不依赖显式 world model,是完全 self-consistent 的。但中长期,当你想把同一个“机器人大脑”扩展到更复杂、更开放、更混合现实的世界时,Fei-Fei Li 那种 3D world model 和 SIMA/Genie 这种游戏世界,很可能会成为这条路上的“第二层涡轮”。而这条路线 Pi 自身也不排斥,反而会成为它继续跃升的台阶。

回望自动驾驶 2009 年起步时,视觉感知的泛化能力非常有限,系统多半靠规则 传统 CV,做一个 demo 容易,scale 到全分布就会撞墙。而在 2025 年,我们已经有了能在极端广泛分布上泛化的 LLM/VLM,能构建稳定、鲁棒的世界理解表征,这直接改变了机器人一开始能站上的台阶。机器人之所以有机会比自动驾驶 scale 得更快,一方面因为感知基础已经不同于 2009 年,而且许多 manipulation 任务可以“犯错—纠错—再学习”。

所以,目前机器人的 GPT 时刻的拼图块基本都有了(视觉、语言、强化学习、world model…),难点在于工程化的综合与规模化:如何认真设计 tele-op / human-as-sensor 的采集体系,持续采集大规模、异构且包含失败恢复的数据;如何将感知到动作之间的整体延迟压到几十毫秒量级;能不能在真实世界里建立一套能反映整条系统表现的评估方法,而不是只在某个子模块上刷分,等等。

01. 上周市场总结

AI 垂直领域因动能减弱遭对冲基金大幅抛售;半导体板块交易出现轮动与扩散

上周,对冲基金成为美国股票的净卖方,周四录得自四月以来最为显著的回撤之一。美国股票多空(L/S)基金的净杠杆率从 10 月底的 60%高点降至 53%,主要由于空头头寸的增加,而多头敞口依然接近十年高位。抛售主要集中在持仓集中的 AI 垂直领域,尤其是 AI 科技受益股,在科技动能下跌 6%后,相关板块录得有史以来最大资金流出。其他 AI 相关板块如 AI 动力也从过去 12 个月高点出现净减仓。尽管如此,市场出现明显轮动,对冲基金加仓此前低配的板块,医疗保健(尤其是生物科技和并购标的)持续获增持,软件板块也重新受到关注,尽管其表现落后于标普指数。

在欧洲,对冲基金继续降低敞口,加大空头并削减多头,尤其是在拥挤的空头和主题板块如重建乌克兰、欧盟油气、英国消费及本土收入板块。欧盟本地多空基金 11 月迄今下跌约 10 个基点,跑输 SXXP 指数 1.6%的涨幅,主要因空头组合表现承压。然而,欧盟软件和半导体板块获得净买入,全球半导体交易出现扩散。除日本外的亚洲市场整体小幅净买入,主要受中国、韩国和台湾需求带动,中国半导体板块资金流入加速。日本市场也吸引了广泛买盘,尤其是工业、消费和医疗保健板块,通信服务则是唯一净卖出的行业。

对冲基金 11 月表现落后基准,但年初至今收益依然强劲

11 月对冲基金面临挑战,全球平均基金本月至今下跌 24 个基点,回撤幅度约为 MSCI 世界指数 55 个基点下跌的一半。美国股票多空基金本月下跌 1%,略逊于标普 500 指数 1.5%的跌幅。尽管近期表现疲软,年初至今业绩依然稳健:全球平均基金上涨 11.4%,美国多空基金上涨 12.1%,欧盟本地多空基金上涨近 15%,亚洲多空基金上涨 16.6%。中国相关多空基金以 25%的年初至今回报继续领跑,MSCI 亚洲指数同期上涨 30%。

拥挤度表现数据显示,北美最拥挤的前 50 只多头年初至今回报为 35.1%,而前 50 只空头为 11.8%,多空利差为 23.4%,标普 500 指数上涨 15.8%。在欧洲和亚洲,拥挤多空利差年初至今也为正,但 11 月各地区回报均为负,反映出市场整体回调及拥挤交易承压。

02. AI Alphas

泄露文件揭示 OpenAI 与微软(MSFT)复杂财务关系,推理成本或已超收入

根据科技博主 Ed Zitron 获得的文件,2024 年微软从 OpenAI 获得了 4.938 亿美元收入分成,2025 年前三季度这一数字跃升至 8.658 亿美元。这一安排源于微软对 OpenAI 超过 130 亿美元的投资协议,据称 OpenAI 将 20%收入支付给微软。同时,微软也向 OpenAI 返还了约 20%的 Bing 和 Azure OpenAI 服务收入。基于 20%的分成比例推算,OpenAI 2024 年收入至少为 25 亿美元,2025 年前三季度至少为 43.3 亿美元,而 CEO Altman 声称年化收入运行率将超过 200 亿美元。更令人担忧的是其推理成本:2024 年约为 38 亿美元,2025 年前九个月高达 86.5 亿美元,可能已超过同期收入。尽管训练成本主要由微软提供的积分覆盖,但推理支出多为现金支付,这引发了对 AI 行业盈利能力的质疑。OpenAI 除主要依赖微软 Azure 外,已与 CoreWeave、Oracle、AWS 和 Google Cloud 达成算力合作。

Nebius(NBIS)与 Meta(META)签署 30 亿美元 AI 基础设施协议,尽管获大额合同股价仍下跌

Nebius 与 Meta 签署了一项为期三年、价值 30 亿美元的数据中心基础设施租赁协议,为 Meta 提供人工智能基础设施。尽管获得了这一大额合同,Nebius 股价当天仍下跌 7%,主要原因是其第三季度业绩未达市场预期。公司第三季度收入同比增长 355%至 1.461 亿美元,低于分析师预期的 1.55 亿美元;净亏损从去年同期的 4360 万美元扩大至 1.196 亿美元,较预期多出约 2000 万美元。Nebius 的 AI 基础设施业务是主要收入来源,该部门销售额同比增长 400%。此前两个月,Nebius 还从 Microsoft 获得了价值高达 194 亿美元的更大规模 AI 基础设施合同。公司计划通过发行 2500 万股股票和债务融资扩建数据中心,目标到 2026 年底实现 70-90 亿美元的年化收入,并将合同电力容量提升至 2.5 吉瓦。

Alphabet(GOOGL)宣布 400 亿美元德州数据中心投资,推动 AI 基础设施升级

谷歌宣布将在德克萨斯州投入 400 亿美元建设数据中心基础设施,计划持续至 2027 年。该项目包括在阿姆斯特朗县和哈斯克尔县新建三座采用空气冷却技术的数据中心,后者距离 OpenAI 旗舰 AI 数据中心 Stargate 仅一小时车程。尽管谷歌 4 月发布了专为液冷集群设计的 Ironwood AI 芯片,但新设施可能采用英伟达的空气冷却 HGX B300 设备。公司还将升级位于 Midlothian 和达拉斯的现有数据中心。Alphabet CEO 桑达尔·皮查伊强调该投资将创造数千岗位并推动能源计划。此次布局正值 Anthropic 宣布 500 亿美元全美 AI 基建计划,后者已与初创公司 Fluidstack 合作在德州和纽约建设设施。

Nvidia(NVDA)与 Cisco(CSCO)深化 AI 基础设施合作,推动企业与国防领域部署创新

在 Nvidia GTC 华盛顿特区活动上,AI 基础设施部署的核心挑战成为焦点。Nvidia 与 Cisco 的深度合作展示了参考架构如何加速企业 AI 部署,双方联合开发的 N9100 交换机在不到一年内完成,结合 Nvidia Spectrum-X 以太网技术和 Cisco Nexus 软件,使客户能够部署数千个 GPU。World Wide Technology 作为 Cisco 最大的集成合作伙伴,通过 AI 验证实验室推动技术落地。国防领域也见证了变革,Northrop Grumman 与 Future Tech 的合作将概念到部署的时间从数年压缩至数月。在应用层面,SHI International 与 Hewlett Packard Enterprise 合作,在科罗拉多州韦尔市部署了 AI 解决方案,通过 ProHawk、IronYun 等技术实现了野火早期检测,并将 ADA 合规工作的周期从预算三年缩短至一个周末完成。

CoreWeave(CRWV)三季度营收大增,全年指引不及预期股价下跌

AI 计算基础设施公司 CoreWeave 第三季度业绩表现强劲,营收同比增长 134%至 13.6 亿美元,远超分析师预期的 12.9 亿美元,净亏损大幅收窄至 1.1 亿美元。然而,因关键数据中心建设延迟及保守的全年营收指引,公司股价在盘后交易中下跌近 6%。CoreWeave 预计全年营收为 50.5-51.5 亿美元,低于市场预期的 52.9 亿美元。公司目前拥有 556 亿美元的订单积压,并与多家科技巨头达成重要合作,包括与 OpenAI 的 65 亿美元合作扩展以及与 Meta Platforms 价值高达 142 亿美元的六年期协议。尽管数据中心建设延迟,CEO Michael Intrator 表示客户已同意调整交付计划,不会影响订单积压价值。此外,CoreWeave 对 Core Scientific 的 90 亿美元收购要约因股东反对而终止。

Salesforce(CRM)以约 1 亿美元收购以色列 AI 搜索公司 Doti,持续加码 AI 布局

Salesforce 宣布以约 1 亿美元收购以色列 AI 搜索初创公司 Doti,这是该公司在不到一周内的第二起 AI 初创企业收购。Doti 专注于企业级 AI 搜索平台,能够从 Salesforce CRM、Slack 及 Google Drive 等多个数据源检索信息,每日更新知识库 20 次。该平台支持创建定制化 AI 代理,并根据用户角色调整信息访问权限。Salesforce 计划将 Doti 技术整合至 Slack 搜索功能,Doti 团队将并入其以色列 AI 工程部门,交易预计于 2 月完成。此前,Salesforce 刚收购了开发 AI 代理问答工具的 Spindle AI,并在过去两个月内接连收购了自动化 AI 工具提供商 Waii、Regrello 和流程自动化平台 Apromore,密集布局 AI 领域。

Snowflake(SNOW)收购数据库迁移初创公司 Datometry,提升数据库迁移能力

Snowflake 宣布已收购数据库迁移初创公司 Datometry,交易金额未披露。Datometry 此前曾从戴尔技术和 Celesta Capital 等投资者处筹集了 2800 万美元,拥有多家财富 500 强客户。Datometry 的核心产品 Hyper-Q 平台能够自动化数据库迁移过程,解决了传统迁移工具难以处理的动态 SQL 语句问题,同时还能迁移数据库架构。此次收购将增强 Snowflake 的数据库迁移能力,其技术将被整合至 SnowConvert 工具中。据 Snowflake 称,Hyper-Q 可将 Teradata 迁移速度提升四倍,同时降低 90%的相关成本。Snowflake 高管表示,此次收购将显著减少客户应用程序和工具迁移所需的时间和精力,加快价值实现。

AMD(AMD)与 Vultr 深化合作,推出面向 AI 与数据主权的云基础设施解决方案

AMD(AMD)与云服务提供商 Vultr 宣布深化合作伙伴关系,共同推出面向全球 AI 规模与数据主权需求的云基础设施解决方案。双方最新发布的 VX1 云计算系列已在 KubeCon CloudNativeCon NA 活动上亮相。据 Vultr 首席营销官 Kevin Cochrane 透露,该系列实现了每美元性能提升 82%的显著改进。这一合作充分利用了 AMD 的 ROCm 开源软件堆栈和 Vultr 的全球云基础设施,特别针对医疗健康和生命科学领域的大模型需求进行了优化。AMD AI 业务开发经理 Aleks Shargorodskiy 强调,AMD GPU 在高带宽内存方面的竞争优势使其能够支持基因组预测、蛋白质折叠和药物发现等大型模型在单 GPU 上运行。合作还着重解决了数据主权问题,确保用户数据不跨越地理边界,并支持建立具有专用控制平面的主权云环境。

排版:夏悦涵

AI Bubble 深度讨论:万亿美元 CapEx,Dark GPU,广告电商如何带飞 AI|Best Ideas

Leogra AI:BVP 投资的欧洲版 Harvey,给每位律师配一位协作 Copilot

对谈 Sora 核心团队:Sora 其实是一个社交产品,视频生成模型会带来科研突破

联手 OpenAI 发布 ACP,Stripe 是如何思考 Agent 支付的?

Coatue 最新报告:复盘 400 年、 30 次泡沫,我们离 AI 泡沫还很远

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
杨子(普通会员)
文章
1749
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索