对话CEO星海图高继扬：具身智能的终局，不是卖机器人

Wait 5 sec.

高继扬有一个判断：具身智能不存在所谓的"GPT 时刻"。这话听起来有点反共识。过去两年，这个行业习惯了用"时刻"来标记进展。比如某家公司机器人完成了后空翻，某款模型在某个榜单上刷了新纪录，大家就会问，这是不是具身智能的 ChatGPT 时刻？高继扬的回答是，不会。具身智能的进展不会集中爆发，也很难由一次产品发布来定义。它更可能从 B 端开始，在仓储、零售、工业、服务、科研这些场景里一点点渗透进去。某个场景先跑通，某类任务先稳定，然后再慢慢扩展到更多任务。等几年后回头看，才发现机器人已经进了大量生产环节。这个判断决定了星海图在做什么、不做什么。6 月 16 日，星海图在亦庄办了一场全球开发者大会。会上公布了三件事：新一代 VLA 基础模型 G0.5，自研双足人形机器人 Kengo（行客）亮相，以及联合北京亦庄共建的数据公司"亦数智能"正式揭牌，启动"100 万小时超高质量真实数据计划"。但这些数字和发布不是这篇文章的重点。重点是，我们与高继扬会后的对话。他从"为什么现阶段不追第一"聊到"一块钱数据至少十块钱训练"，再到"整机和供应链是有限游戏，智能和应用才是无限游戏"。以下为对话内容，略有删减。智客ZhiKer：VLA 模型与世界模型（WAM）的数据能否通用？高继扬：这两个路线不是对立的，它们的底层其实是一样的，都是把多模态数据变成 Token，通过多层 Transformer 做编码和输出，只是监督方式和训练方式有所不同。从这个角度来说，所有的数据都可以互用混用。我们采集数据本质上是为了铺满四个维度：动作维、对象维、场景维、本体维。不同的采集方式（Human Centric 和 Robot Centric）各有各的优势，最终都是为了让这四个维度的数据尽量铺满。Human Centric 数据跨本体能力强、采集效率高、成本低；Robot Centric数据则是模型最终部署到机器人本体上所需要的。智客ZhiKer：怎么看待"用具身大脑终结行业有躯无智"这一说法？具身智能竞争的关键是什么？高继扬：我们刚创业的时候提过两个词，一个是“一脑多形”，一个是“在脑不在形”。这话可能说得比较直，没有大脑驱动，形体就是破铜烂铁。这个行业要往前走，一定得先把具身大脑，也就是具身基础模型做出来，然后才能带动上下游。往上推整机和零部件，往下推应用和分销。智客ZhiKer：现阶段为什么不追求绝对第一？什么时候会开始大规模扩张？高继扬：这个行业的核心是 AI 驱动的，在整机销售这个阶段去争第一第二，没太大意思。说实话，在这个阶段猛冲量，更像是往资产负债表上堆负债，而不是堆资产。我们会按自己的节奏走。去年比前年有 10 倍的增长，今年也是数倍的增长。等智能真正开始驱动第二阶段的商业模式了，那时候才是拼第一的时候。智客ZhiKer：你说的第二阶段商业模式是什么？高继扬：我们把具身智能发展分为三个跃迁阶段，本能智能、作业智能和进化智能。本能智能直接作用于本体，让机器人像人一样天然学会驾驭身体，保持平衡、行走、奔跑；作业智能建立在本能智能之上，解决像人一样有序作业和操作的问题，语言是它的重要接口，星海图的G系列模型正是作业智能模型；进化智能则指向更深的问题，AI能不能定义最优生产力形态。第二阶段是作业智能，指的是面向生产力场景的方案订阅，这个市场规模比前两个阶段大出好几个数量级，基本等于在重写 GDP。现在整个行业还在以整机销售为中心，没有任何一家企业能在生产力场景里真正干活。所以，真正的仗还没开始打。智客ZhiKer：预训练阶段是否使用仿真数据？数据成本方面的压力怎么样？高继扬：我们目前训练全部使用真实数据，基本没用仿真数据。至少在达到 100 万小时数据之前，我看不到使用仿真数据的必要性，真实数据铺满那四个维度的速度更快、效果也更好。说到成本，我觉得不能光盯着数据的单向成本，得看智能总成本。它包括三块：数据成本、算力成本、研发成本。我们在实践里，数据跟算力的比例差不多是 1:10，花一块钱采数据，至少得花十块钱做训练。数据质量是根本，最高质量的数据就是真实数据。具体数字的话，Human Centric 大概 50 到 100 块钱一小时，Robot Centric大概 250 块一小时。综合算下来，100 万小时的数据成本大概在 1 到 2 亿人民币。跟大语言模型每年几亿美金的算力投入比，这笔钱必须花，而且非常划算。智客ZhiKer：怎么从百万小时冲到千万小时？数据量上去之后，模型能力会有什么变化？高继扬：我们依托亦庄智能平台，走外包采集加众包采集两条路。众包是生产伴随式的，工人日常干活的时候带上设备，自然就采了；外包是针对特定任务，专门雇人来采。数据量上去，主要解决的是泛化问题，到新场景、接新任务，能不能不加数据就搞定。执行速度的提升，靠的是后训练，跟工人上岗前需要再培训一个道理。拿叠衣服举例，三个月前速度还特别慢，迭代到现在已经快了很多。这个成长速度，甚至比婴幼儿学技能还要快。智客ZhiKer：如果大家都在冲击百万小时数据量，数据的壁垒是什么？高继扬：99% 的具身智能数据是私有数据。未来具身智能模型能做成什么样，很大程度上就看数据好不好、对数据的理解深不深。数据理解的认知差异会传导到模型能力的差异，再传导到应用效果和商业价值的差异，这是一个完整的链路。智客ZhiKer：数据能否做成标品，由第三方公司提供给各家应用企业？高继扬：从理论业务模式上说，是可以的。比如说海天瑞声，本身就是做数据标品和服务的上市公司。但具身智能有个麻烦：整机、数据、模型训练这三件事耦合太紧了。数据采回来之后，算法的人必须跟数采和运营的人紧密迭代，才能把数据质量提上来。所以我们做了两件事：一是投了数采设备企业，二是跟亦庄控股等联合发起公司，把场景、设备、数据管线、模型需求这些东西捏到一块，这样才有可能做出高质量的标品数据集。智客ZhiKer：数据、模型、整机，哪一块最重要？资源怎么分配？高继扬：战略上就是整机加智能，两者缺一不可。释放物理世界的生产力，只有模型不够，整机也需要足够好的可靠性、一致性和负载能力。但从研发投入来看，智能的研发投入比整机高出一个数量级。智客ZhiKer：G0.5 模型什么时候用在 Kingo 双足机器人上？高继扬：G0.5 的模型架构是为双臂智能/轮式双臂品类准备的，会先应用在 R1Light、R1Pro 等产品上。Kingo 主力发展的是本能智能模型。作业模型（VLA/世界模型）以模仿学习为主、强化学习为辅；本能智能反过来，以强化学习为主、模仿学习为辅。最终这两样会融合在一起，可能是某种组合比例。等到本能和作业智能真融在一起了，G0.5 的能力才会带到 Kingo 上。智客ZhiKer：Kingo 的关节模组有什么特点？定价和商业化计划呢？高继扬：关节模组的话，我们整机全部用 EC 通信，同步性是行业里最好的，但研发难度也最大。为此我们在流控和中空设计上下了不少功夫，电机的电磁仿真、减速器设计上也做了很多优化。性能在第一梯队。成本的话，这类产品的 BOM 最终会稳定在 1 万美金左右，大概两年内能做到。但成本本身不决定能不能商业化，关键在于大脑能干什么活。发达国家劳动力一年大概 4 到 5 万美金，如果硬件一万美金、一年回本，剩下三四万美金就是智能的空间。整机和供应链是有限游戏，智能和应用才是无限游戏。做整机是为了拿到后面无限游戏的入场券。智客ZhiKer：Kingo 搭载本能智能模型后，未来的落地场景有哪些？高继扬： 本能模型最初级阶段就是做强化学习能做的事，跳舞、跑跳、行走，对应的是展演展示的商业化。能力再往上走，下一步是全身遥操作，等于有了一个远程化身，可以做电站巡检之类的轻作业。再往后，本能智能跟作业智能融合起来，就能进制造业、建筑业这些非结构化场景做重活了。不过有一点要说清楚，在平地这种结构化场景里，轮式双臂其实更有优势，双足反而噪音大、效率低。（本文首发钛媒体APP，文 | 智客Zhiker，作者｜郭虹妘）更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App