高继扬有一个判断:具身智能不存在所谓的"GPT 时刻"。这话听起来有点反共识。过去两年,这个行业习惯了用"时刻"来标记进展。比如某家公司机器人完成了后空翻,某款模型在某个榜单上刷了新纪录,大家就会问,这是不是具身智能的 ChatGPT 时刻?高继扬的回答是,不会。具身智能的进展不会集中爆发,也很难由一次产品发布来定义。它更可能从 B 端开始,在仓储、零售、工业、服务、科研这些场景里一点点渗透进去。某个场景先跑通,某类任务先稳定,然后再慢慢扩展到更多任务。等几年后回头看,才发现机器人已经进了大量生产环节。这个判断决定了星海图在做什么、不做什么。6 月 16 日,星海图在亦庄办了一场全球开发者大会。会上公布了三件事:新一代 VLA 基础模型 G0.5,自研双足人形机器人 Kengo(行客)亮相,以及联合北京亦庄共建的数据公司"亦数智能"正式揭牌,启动"100 万小时超高质量真实数据计划"。但这些数字和发布不是这篇文章的重点。重点是,我们与高继扬会后的对话。他从"为什么现阶段不追第一"聊到"一块钱数据至少十块钱训练",再到"整机和供应链是有限游戏,智能和应用才是无限游戏"。以下为对话内容,略有删减。智客ZhiKer:VLA 模型与世界模型(WAM)的数据能否通用?高继扬:这两个路线不是对立的,它们的底层其实是一样的,都是把多模态数据变成 Token,通过多层 Transformer 做编码和输出,只是监督方式和训练方式有所不同。从这个角度来说,所有的数据都可以互用混用。我们采集数据本质上是为了铺满四个维度:动作维、对象维、场景维、本体维。不同的采集方式(Human Centric 和 Robot Centric)各有各的优势,最终都是为了让这四个维度的数据尽量铺满。Human Centric 数据跨本体能力强、采集效率高、成本低;Robot Centric数据则是模型最终部署到机器人本体上所需要的。智客ZhiKer:怎么看待"用具身大脑终结行业有躯无智"这一说法?具身智能竞争的关键是什么?高继扬:我们刚创业的时候提过两个词,一个是“一脑多形”,一个是“在脑不在形”。这话可能说得比较直,没有大脑驱动,形体就是破铜烂铁。这个行业要往前走,一定得先把具身大脑,也就是具身基础模型做出来,然后才能带动上下游。往上推整机和零部件,往下推应用和分销。智客ZhiKer:现阶段为什么不追求绝对第一?什么时候会开始大规模扩张?高继扬:这个行业的核心是 AI 驱动的,在整机销售这个阶段去争第一第二,没太大意思。说实话,在这个阶段猛冲量,更像是往资产负债表上堆负债,而不是堆资产。我们会按自己的节奏走。去年比前年有 10 倍的增长,今年也是数倍的增长。等智能真正开始驱动第二阶段的商业模式了,那时候才是拼第一的时候。智客ZhiKer:你说的第二阶段商业模式是什么?高继扬:我们把具身智能发展分为三个跃迁阶段,本能智能、作业智能和进化智能。本能智能直接作用于本体,让机器人像人一样天然学会驾驭身体,保持平衡、行走、奔跑;作业智能建立在本能智能之上,解决像人一样有序作业和操作的问题,语言是它的重要接口,星海图的G系列模型正是作业智能模型;进化智能则指向更深的问题,AI能不能定义最优生产力形态。第二阶段是作业智能,指的是面向生产力场景的方案订阅,这个市场规模比前两个阶段大出好几个数量级,基本等于在重写 GDP。现在整个行业还在以整机销售为中心,没有任何一家企业能在生产力场景里真正干活。所以,真正的仗还没开始打。智客ZhiKer:预训练阶段是否使用仿真数据?数据成本方面的压力怎么样?高继扬:我们目前训练全部使用真实数据,基本没用仿真数据。至少在达到 100 万小时数据之前,我看不到使用仿真数据的必要性,真实数据铺满那四个维度的速度更快、效果也更好。说到成本,我觉得不能光盯着数据的单向成本,得看智能总成本。它包括三块:数据成本、算力成本、研发成本。我们在实践里,数据跟算力的比例差不多是 1:10,花一块钱采数据,至少得花十块钱做训练。数据质量是根本,最高质量的数据就是真实数据。具体数字的话,Human Centric 大概 50 到 100 块钱一小时,Robot Centric大概 250 块一小时。综合算下来,100 万小时的数据成本大概在 1 到 2 亿人民币。跟大语言模型每年几亿美金的算力投入比,这笔钱必须花,而且非常划算。智客ZhiKer:怎么从百万小时冲到千万小时?数据量上去之后,模型能力会有什么变化?高继扬:我们依托亦庄智能平台,走外包采集加众包采集两条路。众包是生产伴随式的,工人日常干活的时候带上设备,自然就采了;外包是针对特定任务,专门雇人来采。数据量上去,主要解决的是泛化问题,到新场景、接新任务,能不能不加数据就搞定。执行速度的提升,靠的是后训练,跟工人上岗前需要再培训一个道理。拿叠衣服举例,三个月前速度还特别慢,迭代到现在已经快了很多。这个成长速度,甚至比婴幼儿学技能还要快。智客ZhiKer:如果大家都在冲击百万小时数据量,数据的壁垒是什么?高继扬:99% 的具身智能数据是私有数据。未来具身智能模型能做成什么样,很大程度上就看数据好不好、对数据的理解深不深。数据理解的认知差异会传导到模型能力的差异,再传导到应用效果和商业价值的差异,这是一个完整的链路。智客ZhiKer:数据能否做成标品,由第三方公司提供给各家应用企业?高继扬:从理论业务模式上说,是可以的。比如说海天瑞声,本身就是做数据标品和服务的上市公司。但具身智能有个麻烦:整机、数据、模型训练这三件事耦合太紧了。数据采回来之后,算法的人必须跟数采和运营的人紧密迭代,才能把数据质量提上来。所以我们做了两件事:一是投了数采设备企业,二是跟亦庄控股等联合发起公司,把场景、设备、数据管线、模型需求这些东西捏到一块,这样才有可能做出高质量的标品数据集。智客ZhiKer:数据、模型、整机,哪一块最重要?资源怎么分配?高继扬:战略上就是整机加智能,两者缺一不可。释放物理世界的生产力,只有模型不够,整机也需要足够好的可靠性、一致性和负载能力。但从研发投入来看,智能的研发投入比整机高出一个数量级。智客ZhiKer:G0.5 模型什么时候用在 Kingo 双足机器人上?高继扬:G0.5 的模型架构是为双臂智能/轮式双臂品类准备的,会先应用在 R1Light、R1Pro 等产品上。Kingo 主力发展的是本能智能模型。作业模型(VLA/世界模型)以模仿学习为主、强化学习为辅;本能智能反过来,以强化学习为主、模仿学习为辅。最终这两样会融合在一起,可能是某种组合比例。等到本能和作业智能真融在一起了,G0.5 的能力才会带到 Kingo 上。智客ZhiKer:Kingo 的关节模组有什么特点?定价和商业化计划呢?高继扬:关节模组的话,我们整机全部用 EC 通信,同步性是行业里最好的,但研发难度也最大。为此我们在流控和中空设计上下了不少功夫,电机的电磁仿真、减速器设计上也做了很多优化。性能在第一梯队。成本的话,这类产品的 BOM 最终会稳定在 1 万美金左右,大概两年内能做到。但成本本身不决定能不能商业化,关键在于大脑能干什么活。发达国家劳动力一年大概 4 到 5 万美金,如果硬件一万美金、一年回本,剩下三四万美金就是智能的空间。整机和供应链是有限游戏,智能和应用才是无限游戏。做整机是为了拿到后面无限游戏的入场券。智客ZhiKer:Kingo 搭载本能智能模型后,未来的落地场景有哪些?高继扬: 本能模型最初级阶段就是做强化学习能做的事,跳舞、跑跳、行走,对应的是展演展示的商业化。能力再往上走,下一步是全身遥操作,等于有了一个远程化身,可以做电站巡检之类的轻作业。再往后,本能智能跟作业智能融合起来,就能进制造业、建筑业这些非结构化场景做重活了。不过有一点要说清楚,在平地这种结构化场景里,轮式双臂其实更有优势,双足反而噪音大、效率低。(本文首发钛媒体APP,文 | 智客Zhiker,作者|郭虹妘 )更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App