当Robotaxi还在为L4苦苦挣扎时,酷哇的环卫机器人、无人小巴、机器狗已经在50多个城市“上岗”赚钱了。 具身智能最大的瓶颈不是算法,而是数据——没有量产就没有数据,没有数据就无法进化。酷哇的解法是“以战养战”:让机器人在真实运营中一边干活一边成长,用万台规模反哺模型迭代。李柯宏强调,中国是全球少有的支持机器人规模化应用的市场,酷哇正依托“一带一路”先行布点,用真实的运营数据驱动具身智能的持续进化。 以下为酷哇科技联合创始人、COO 李柯宏 演讲内容,经36氪整理编辑: 李柯宏丨酷哇科技联合创始人、COO 非常感谢36氪和亦庄的邀请,今天我分享的主题是:作为一家以统一世界模型驱动的具身智能企业,我们如何在全时空城市场景中实现机器人的规模化部署。 从大语言模型和具身智能的演进来看,2023年是一个关键分水岭。此前行业更多采用分模块或端到端的机器人架构;2023年后,以生成式AI为底座,诞生了面向物理世界的世界模型(World Model)。它与上一代模型的本质差异在于:能够基于对环境的观测,生成对未来的动作预测,并将物理因果关系嵌入决策链条。 过去两年,中美顶尖AI公司发布了大量世界模型,无论是应用于机器人、智驾还是视频生成,大方向是统一的——将生成式算法落地于物理世界。 生成式算法仍遵循Scaling Law。以Robotaxi为例:Waymo从Google X起步,耕耘十余年;特斯拉依托千万级车队众包数据训练,已逼近L4门槛。但具身智能的复杂度远超自动驾驶——理论上需要的数据量级更大。现实困境在于:全球没有一个像汽车那样普及的“具身智能终端”,能让用户边用边采集数据。具身数据从何而来,是目前行业最大的瓶颈。 我们酷哇的解法,我们做了Coowa WAIM (World-Action Model),基于这个模型做一脑多行,具体应用在五大场景,环卫、出行、即时配送、物业、家庭,前三个要么是规模化,要么快速做POC,后面两个还是需要一点时间。再来介绍以下我们模型的结构。 酷哇的解法是,我们构建了 CooWAIM(World-Action Interactive Model)通用世界模型,以“一脑多形”架构驱动不同形态本体,覆盖环卫、出行、即时配送、物业、家庭五大核心场景。前三者已进入规模化或快速POC阶段,后两者仍需时间爬坡。下面具体介绍模型的结构: 整个模型采用双系统架构: 一、直觉行动系统:基于视觉的端侧实时推理,负责当下安全与效率; 二、长程任务推理系统:负责全局规划与语义理解。 两者叠加,输出映射为两大具身能力域: Drive(全域移动):覆盖结构化与非结构化场景,城市主干道、辅道、人行道、园区楼宇内均可自由穿行; Work(多关节协作操作):超越传统“抓取-放下”范式,将环卫扫盘、风机模组、机械臂等执行器统一纳入操作空间,实现移动与操作的不可解耦融合。 酷哇的路径是“以战养战”:拆解行业特性,匹配技术成熟度、产品成熟度与商业成熟度,按经济性节奏部署,最终实现具身智能的规模化落地。在城市服务领域,大家广义理解的drive层面做到万台规模,无序移动的数据或者能力基本实现。 再往上走,我们找到即时配送场景,基于“无序移动+简单操作”实现产品匹配,我们认为即时配送场景在短期内有规模化空间。长期来看,具身智能的落地路径是从开放场景走向半封闭、再走向封闭,最后进入家庭——从移动到操作,逐步把数据收集起来。 酷哇成立于2015年,深耕城市开放场景十年时间,推出适配各类场景的产品矩阵,包括1吨级、3吨级环卫机器人及无人小巴,覆盖市政清扫与出行接驳。以下场景为标准中国人行道——环境高度复杂,感知精度要求高于主干道,是我们的机器人产品在非结构化环境下移动能力的直接体现。 我认为这是世界模型在端侧应用的典型范例。讲一个大前提:我们的机器人在上下班高峰期过路口时,需实时处理上百个动态特征(行人、非机动车),生成未来轨迹预测,评估对自身的影响,再输出自适应行动轨迹。在拥挤道路环境下,其交互博弈能力直接决定通行效率。有人会问为什么小车需要这么强的能力——这跟具身智能的经济性直接相关:每过一个路口,通行率更高或通行时长更短,第一覆盖距离加大;第二单机清扫时间效率变快,就可以覆盖更大面积,帮助客户节约更多成本。比如你能节约20%的时间,基本约等于20%的毛利,这是机器人规模化应用的前提条件。 清扫作业过程中,机器人跟主干道的交互不仅是有避障,还有主动寻求碰撞的 action,比如贴边清扫、识别垃圾、控制风机模组——多关节协作,既有 Drive,又有 Work,这是不可解耦的。机器人会实时根据垃圾的分布,再做locomotion,进而把 Drive、Walk 融合到一个场景任务中来。 之后是我们���物业服务场景的代表产品瓦力机器人R0,作业范围覆盖整个物业场景包括室外、室内,都会有类似的 Work 能力体现。 在出行场景的无人小巴方面,目前Coobus已在全球10个城市左右落地,目前亦庄很快也可以看得到。 接下来是酷哇实现机器人规模化落地的关键数据:真实里程5500万公里,全国50多个城市和地区部署。 在即时配送场景,基于通用的无序移动+简单Work能力,我们部署了四足配送机器狗。在末端配送环节中,我们发现一个痛点:占用配送小哥大部分时间并不是在主干道上骑电瓶车——这个效率已经非常高了——真正损耗时间的是如何在封闭楼宇或大型小区找门牌号,这是地图无法标注出来的。我们通过机器狗来解决:一只狗送万家货,一方面我们与客单价相对较高、对履约时效有较高要求的品牌专送达成合作。另一方面,在物业层面,我们积极接入他们的系统,争取在不改变物理基础设施、不做梯控改造的前提下完成履约,现在也做到三公里以内30分钟送到。 如图所示,这是我们抓取冷启动的动作,包括柔性物体或长程任务抓取也能够完成。这是机器狗送咖啡的场景:袋子的颜色、大小都不一样,抓取位置偏柔性,还是得用真机训练——因为袋子的材质构成在开源数据集中很难抓到,包括 action 和 VOA 对齐的动作数据是不存在的,只能在真实场景中采集,再用收集到的数据进行训练。 这是比较好的小区,也会出现“看似路又不似路”的场景。即便在小区内,对机器人的寻址能力要求也非常高。目前我们的机器狗在电梯里送货——在不改变任何基础设施的情况下,自主识别电梯,不需要做梯控,楼层也可以自主识别。这是最后送到家的环节,跟上游系统打通,通过 AI 短信、电话通知客户东西到了。虽然看似不那么难,里面的非标环节非常多,非常非结构化,这是我们一整套具身智能战略目前的应用效果。 目前酷哇的全系列产品,已经在全国50余个地区落地,累计收到1000万条视频-语义-动作对齐的 clips。给予现在以战养战的经营策略,和万台级机器人的部署,公司目前每年也能实现大几个亿的利润流入。 全世界各地像中国这样支持机器人、AI 规模化应用的国家不多,或者几乎没有。我们尽早去各地先布点,在等别的国家开放应用、市场认可的同时,先行把这个市场的意识形态掌握,主要采用“一带一路”国家为主。 最后是公司介绍:酷哇科技成立于2015年,以上海交大为班底,总部落在北京。我们依托于北京的自动驾驶、机器人生态,进行具身智能的进一步示范落地。 我的整体介绍到此为止,谢谢大家!