机器人开源革命:“免费大脑”背后的四派力量与博弈

Wait 5 sec.

文 | 硅谷101今年2月前后,小米、蚂蚁、阿里达摩院、宇树纷纷发布机器人开源模型。再之前,英伟达在CES上发布了GR00T N1.6,把自家号称“世界首个开放人形机器人基础模型”又再度升级。这些消费电子公司、互联网巨头、芯片帝国,最近都一股脑把机器人的“大脑”拿出来,免费给全世界用。机器人开源模型的生态中,有什么样的心机和万亿美元押注的博弈呢?本篇文章我们继续机器人系列,之前我们“机器人闭源模型”那篇文章分析了如今具身智能通用的VLA模型,拆解了特斯拉、Figure这些闭源巨头的不同路线,以及他们如何用硬件和数据优势构筑护城河。而这篇文章,我们与全球顶尖具身智能实验室的研究人员深聊之后,来扒一扒开源算法路线中的核心玩家和关键的技术领军人物们。同时我们来试图回答这三个问题:第一:这些开源模型分别走了什么技术路线,为什么能挑战巨头?第二:开源的动机是什么?什么是“真”开源,什么是“假”开源?第三:开源模型生态是什么样的?面对特斯拉这样的对手,开源社区拿什么打?01 开源模型全景,谁在做,走什么路?在开源模型派别中,VLA模型仍然是主流。简单来说,就是让机器人“看到”周围环境,“听懂”你的指令,然后“做出”正确的动作。目前,开源VLA模型大致可以分成四股力量:1. 学院派:参数不大,但能以小博大,代表模型是OpenVLA和Octo。2. 巨头生态派:不只做模型,还布局整套工具链,代表是英伟达的GR00T N1和谷歌的Gemini Robotics。3. 创业公司与中国力量:自变量、OpenMind、小米、蚂蚁等等。4. 技术极致派:追求极致精度和泛化能力,代表模型是Physical Intelligence的π₀。1.1:学院派的理想主义OpenVLA的一战成名,发生在2024年6月。这个只有70亿参数的开源模型,在29项机器人操作任务中,全面击败了“顶流”谷歌DeepMind的RT-2-X。RT-2-X有550亿参数,是OpenVLA的8倍大,背后站着整个谷歌的算力和数据资源。但结果是:OpenVLA的成功率比RT-2-X高出16.5%。OpenVLA以小博大,凭的是一个很聪明的架构设计:两个视觉编码器加大语言模型。对比谷歌RT-2-X,因为它只用了一个视觉编码器,你可以想象成一个超聪明但什么都自己做的人:能力很强,但信息处理效率更低。而OpenVLA用了两个视觉编码器,相当于有“两双眼睛”。第一双眼睛叫“DINOv2”,负责理解空间关系;第二双眼睛叫“SigLIP”,专门理解语义和常识。然后再由当时的开源大语言模型Llama 2充当“大脑”,把空间信息和语义信息融合起来,处理指令和推理。简单来说,OpenVLA像一个三人小团队协同作战,把两类信息物理隔离、各自优化,再统一决策,整体反而更强。大家大概可以理解成“三个臭皮匠,顶个诸葛亮”。这个架构证明了:在具身智能领域,单纯的“大”并不代表“聪明”。OpenVLA还有一个数据集的优势,叫做“Open X-Embodiment”,这也是开源生态的一个非常厉害的优势,后文会详细展开。另外,OpenVLA还在动作表示方式和训练策略上做了优化。所以它这次对谷歌的胜利靠的是“数据+架构+训练策略”的综合结果。而且,OpenVLA在胜出之后彻底开源:代码、模型权重、训练脚本全部公开。这样的开放姿态让整个行业都非常兴奋,开始各种后续的优化、推理加速和微调。这就是一个非常典型的开源故事,能用创新方式去“以小搏大”,撬动整个技术领域的后续工作。我们再说说另外一个比较典型的开源路线“Octo”。如果说OpenVLA代表“规模化开源”,Octo就是“普及型开源”。我们知道,机器人算法的“泛化性”是个很大的挑战,之前的标准做法是需要针对特定机器人用特定数据集来训练策略,但你换一个机器人、换一个环境,就要全部重新来训。而一些开源社区的大牛们就希望实现“通用机器人模型”,通过zero-shot这样的技术将模型扩展到广泛的机器人和场景中。这样的路径被称为“通用机器人策略”,Octo就是其中的代表。Octo只有数千万参数,比OpenVLA的规模更小。它是一个基于Transformer的扩散策略模型,设计强调灵活性和可扩展性,支持多种机器人平台和传感器配置,并能够通过微调快速适应新的观察和动作空间。这使得Octo可以广泛应用于不同的机器人学习场景。Octo的定位不是最强,而是人人可用,希望给开源社区提供一个更轻量、可快速适配的通用策略基础模型。1.2 巨头生态一条龙2025年3月的GTC大会上,黄仁勋亲自站台,发布了GR00T N1,号称“世界首个开放人形机器人基础模型”。到2026年1月CES,已经迭代到了N1.6版本。GR00T N1采用双系统架构:一个基于视觉语言模型的“System 2”负责慢思考,理解环境、解读指令、做出规划;一个基于扩散Transformer的“System 1”负责快思考,以高频率把规划转化为精确的关节动作。两个系统端到端联合训练,紧密耦合。22亿参数,模型权重和代码都公开了,不少头部人形机器人公司都获得了早期使用权。而且英伟达不只给了模型,还给了整套生态:用Omniverse做数字孪生,用Isaac Sim生成合成训练数据,用Cosmos生成视频数据,用Newton物理引擎做仿真,整个一条龙服务。Google在机器人通用策略上也在持续布局。早期的RT-1开源了代码和数据,但后续更强大的RT-2以及之后的RT系列就变成闭源模型了,并没有对外开放。最近Google也在加速。2025年发布了Gemini Robotics系列模型,还挖来了前波士顿动力首席技术官Aaron Saunders担任硬件工程副总裁。DeepMind CEO Demis Hassabis把这个愿景称为“机器人界的安卓”,做通用的机器人操作系统,让Gemini成为各种机器人的“大脑”。在2026年CES上,波士顿动力和Google DeepMind宣布了战略合作,将Gemini Robotics模型整合到Atlas人形机器人中,联合研究即将在两家公司的实验室展开。Google从开源到闭源、再到想要打造“机器人界的安卓”,赛道转换有点快、野心有点大,但它绝对是机器人行业的最重要玩家,我们也拭目以待它的下一步动向。中国在开源具身智能领域的参与正在加速,而且态势在从单纯的“跟跑”向“参与定义规则”转变。小米在2月12号刚发布的Xiaomi-Robotics-0,47亿参数,用MoT混合架构——把“大脑”(视觉语言理解)和“小脑”(动作执行)分开,改善了VLA模型普遍存在的推理延迟问题。模型开源,在消费级GPU上就能跑。蚂蚁集团的LingBot-VLA走了另一条路,强调跨形态泛化。这个模型在9种不同的双臂机器人上预训练了2万多小时的真机数据,目标是做到“一个大脑控制所有类型的机器人”,有点像我们之前提到的“通用机器人策略”路线。清华AIR和上海AI实验室联合推出的X-VLA,刷新了五大仿真基准,代码、数据、权重全部公开,可以说是学术界最彻底的开源范本之一。星海图开源了真机数据集,以及旗下最新的G0 Plus VLA模型;智元机器人的GO-1已经部署到了真机上执行任务;星动纪元的ERA-42也在探索自己的路线。另外,自变量机器人是一家聚焦于通用机器人“大脑”研发的中国具身智能创业公司,CTO王昊在之前与硅谷101播客谈到了开源的初衷。在硅谷的初创公司中,我们对话了由斯坦福教授Jan Liphardt创立的OpenMind。他说,希望为不同厂商的人形机器人构建一个通用的软件层。OpenMind推出的OM1平台强调开源与跨硬件兼容,希望打破当前机器人系统各自封闭的局面,让不同设备可以共享能力与生态。他们也从一开始就以开源为核心理念来打造具身智能平台,代表了一种纯粹的开源路线。目前开源界最受瞩目的模型π₀,是Physical Intelligence推出的VLA模型,属于数十亿参数级别。π₀代表的是另一条思路:把“连续控制”做到极致。在动作生成部分,π₀使用了flow matching(流匹配)思路,直接生成连续的关节轨迹。这意味着模型输出的是一段平滑的控制信号。Physical Intelligence研究员、也是π₀、π₀.₅论文作者柯丽一鸣在接受硅谷101播客的时候就告诉我们,π₀控制频率约为50Hz,也就是每秒更新约50次动作。这种高频连续控制带来了一个质的飞跃:π₀能做折纸、玩扑克牌这种需要极高精度的任务——而这些是OpenVLA和Octo都很难胜任的。从设计理念上看,π₀更强调“控制质量”和“动作连续性”。相比把动作当作语言token预测,它更接近传统控制系统的形式,只不过控制信号由大模型生成。这一选择带来的好处是,在折叠衣物、抓取柔性物体、操作细小零件等任务中,动作更加流畅,减少了抖动和迟滞。同时,π₀的代码与权重通过OpenPI项目对外开放,使研究社区可以在它的基础上复现与扩展。这种做法在商业公司中并不常见,也成为开源阵营的重要力量。更令人关注的是π₀的迭代节奏。初版论文发布后不久,Physical Intelligence通过OpenPI项目公开了模型权重与代码。随后数月内,团队陆续发布更新版本,持续改进泛化能力与控制稳定性。随后引入强化学习机制以进一步优化策略表现,同时强调在开放环境中的适应能力。在机器人领域,这种快速迭代与持续公开更新并不常见,也成为π₀受到关注的重要原因之一。不同阵营背后的主导核心人物也并非对立关系,他们的关系紧密且错综复杂。而更有意思的是,曾经主导闭源模型的多位顶级科学家,后来成为了机器人开源社区的领导者。他们又被称为机器人界的“复仇者联盟”。OpenVLA来自斯坦福和伯克利的联合团队,核心人物是这个领域的明星人物Chelsea Finn。她MIT本科毕业,又在伯克利拿到博士学位,师从机器人学习教父级人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教,随后一路拿奖到手软。她同时还是Physical Intelligence的联合创始人,横跨学术和商业两个世界。可以说,Chelsea Finn一人就串起了开源和闭源阵营的半壁江山。在Finn教授以外,我们可以看到OpenVLA的作者名单上除了斯坦福和伯克利的一众研究人员,还有丰田研究院、Google DeepMind、Physical Intelligence、MIT的科学家。这说明,OpenVLA并不只是一个闭门造车的实验室产物。Octo和OpenVLA可以说是“同门师兄弟”,同样来自伯克利,由Chelsea Finn和Sergey Levine的团队联合出品。Sergey Levine是机器人强化学习领域公认的开创者之一,他是伯克利教授、Google Brain前研究科学家,后来也成了Physical Intelligence的联合创始人和首席科学家,他跟Finn是博导和博士生的关系。有趣的是,Levine和Finn在Google时期参与了RT-1、RT-2这些闭源项目,离开后又推动了Octo和OpenVLA这些开源工作。这个领域中的同一批人,可以说既造了闭源的堡垒,也打开了开源的大门。PI的创始团队堪称是机器人AI领域的“复仇者联盟”,联合创始人们各个都是来自学术界或者科技公司的大佬。其中,Karol Hausman是Google DeepMind机器人方向的资深研究科学家,也是RT-1、RT-2和SayCan等标志性机器人大模型工作的核心作者之一。Brian Ichter同样来自Google Brain,深度参与了这些项目的研发,是那一代机器人基础模型的重要推动者。Sergey Levine长期与Google Brain合作,在机器人学习和强化学习领域处于世界前沿,是这条技术路线的关键思想源头之一。我们前面提到好几次的Chelsea Finn也是PI的联合创始人之一,她也参与了RT系列研究,在机器人泛化与自监督学习方向做出了重要贡献。2024年初,这几位参与Google机器人基础模型路线的核心成员陆续离开Google,并共同创办了Physical Intelligence(PI)。此外,团队成员还包括前Stripe高管兼知名投资人Lachy Groom,以及前Anduril工程副总裁Adnan Esmail。说白了,是闭源阵营里最懂技术的一帮人,决定跳出来换一种方式做事。但π₀的身份很“纠结”,它来自一家刚成立、融资就超过10亿美元、估值56亿美元的商业公司。这样一家公司,为什么要把最核心的模型开源?这就要说到我们的第二个核心问题:“真”开源和“假”开源。02 开源的“真”与“假”,免费背后的商业心机Physical Intelligence2024年成立,投资人包括Jeff Bezos、OpenAI、Sequoia Capital、Khosla Ventures。2024年11月融了4亿美元,2025年11月又融了6亿美元,估值达到56亿美元。一家这么有钱的公司,为什么要把核心模型免费放出来?答案是:这可能是Physical Intelligence最有“心机”的商业策略。第一,开源建立标准。当全世界的机器人开发者,无论是学术实验室、创业公司或者工业客户,都在π₀的框架上构建应用,PI就成了事实标准的定义者。别人的每一次使用,都在巩固π₀的生态地位。第二,开源吸引人才。最优秀的研究者想去能发论文、能影响行业的地方,PI开源π₀之后,他们的openpi GitHub仓库就成了机器人领域最热的项目之一,这比任何招聘广告都有效。第三,开源加速数据飞轮。社区使用你的模型,发现问题、做出改进、贡献数据,这些都回流给PI,让下一代模型更强。但要注意,π₀不是100%开源。模型权重和推理代码公开了,但完整的训练流程和PI内部采集的数万小时专有数据没有公开。这是一种精心设计的“开源引流、闭源变现”策略,也就是用开源的模型吸引开发者进入你的生态,用闭源的数据和训练能力保持竞争优势。也就是说社区可以用它的模型,但想要最好的版本,还得来找它。我们前面提到,英伟达不只给了模型GR00T N1,还给了整套生态,包括生成合成训练数据的工具、物理引擎等等。听起来非常“开放”,但为什么有人说GR00T N1是“伪开源”?因为模型虽然开放了,整个流程都在英伟达的生态里:训练深度绑定英伟达的硬件生态,用H100集群训练,在Omniverse平台上做仿真,用Isaac Sim生成合成数据,最后部署在Jetson Thor芯片上。对比纯粹的社区开源,比如OpenVLA和Octo没有任何硬件绑定,没有生态锁定,在任何GPU上都能跑。这也许是“开放”和“开源”之间的根本区别。但行业如此早期,也许根本没有什么选择是正确或错误的。学术开源追求的是知识共享和科学可复现性,商业开源追求的是生态控制和市场标准,而战略开放追求的是平台锁定和硬件销售。03 生态的力量,模型+数据+工具的“组合拳”特斯拉有自己的工厂、自己的机器人、自己的数据闭环。英伟达有全世界最强的算力。谷歌汇聚了最顶尖的人才。开源社区一帮大学教授和创业团队,凭什么能跟这些巨头掰手腕?答案是:生态。单看任何一个开源模型,都不如闭源巨头。但模型、数据、工具三层生态叠加,形成的“组合拳”力量,就让故事不一样了。也就是说,闭源看似安全,但没有社区帮你测试和改进,反而可能变成一个人闷头造车。目前开源生态的第一个优势就是数据集。我们前面提到,OpenVLA横空出世,就是用了Open X-Embodiment的数据集。Open X-Embodiment是开源阵营最宝贵的优势:一个跨平台、跨实验室的机器人数据公共资源,它的规模和组织方式在机器人领域前所未有:超过20个研究机构共同贡献,包括斯坦福、伯克利、MIT、CMU、Google DeepMind等顶级实验室;22种不同的机器人本体,从单臂机械臂到双臂协作、从桌面操作到移动导航再到人形机器人;超过100万条真实轨迹,覆盖527种技能。特斯拉的数据可能更大,但全是Optimus一种机器人在特斯拉环境里的数据。Figure的数据也只有Figure 01和02的操作。而Open X-Embodiment是几十种不同形态的机器人,在厨房、实验室、仓库、办公室等完全不同的场景里采集的数据。为什么数据的多样性比数据量更重要?用训练RT-X模型的实验结果来说明:RT-1-X在小数据域的表现比单独训练的模型高了50%,RT-2-X甚至涌现出了原模型没有的空间推理能力,是RT-2的3倍,能理解“on”和“near”这种细微的语言差异,这意味着它开始理解语言中的空间语义,知道“on”意味着物体之间要建立接触和支撑关系,而“near”只是空间邻近。除此之外,它还能执行训练时从未见过的技能组合。这直接证明了:只要数据够多样,就算模型不是最大的,性能也能有大幅提高。更值得一提的是数据格式的标准化贡献。以前最头疼的问题是每个实验室的数据格式都不一样:伯克利是一种格式,斯坦福是另一种,MIT又是第三种。想用多个数据集一起训练?先花几个月写转换代码。而Open X-Embodiment定义了统一的数据格式,涵盖视觉观察、本体感知、动作序列和语言注释,所以在产业中有了一个统一的标准,这个很重要。再说一句数据的问题,因为这是目前机器人领域最大的挑战,我们的嘉宾之间分歧也很大,一派认为大语言模型已经包含了足够的物理常识,只需少量机器人数据微调,而另外一派认为物理世界的细节必须用真实的机器人数据来学习,互联网视频远远不够。这里面的门道和技术可以挖得蛮深,不同的任务、不同的精度要求,需要不同的数据策略。所以,关于数据,我们之后还会单独做一期机器人系列的深度内容。光有数据不够,还需要工具把数据变成可以训练的模型,这就是LeRobot和Genesis的角色。LeRobot是Hugging Face从特斯拉挖来的工程师Remi Cadene带队打造的开源项目。Cadene之前在特斯拉参与过Autopilot和Optimus人形机器人项目。他带着这些经验来到Hugging Face,目标是“让训练机器人像训练语言模型一样简单”。LeRobot做了三件关键的事:1. 定义了LeRobotDataset统一数据格式。2. 一键集成了多种主流策略模型,你不需要去读论文改代码,直接调用就行。3. 打通了数据采集、模型训练、到真实机器人部署的全流程,以前这三步可能需要三套不同的工具链。LeRobot的GitHub已经超过2万星,成为了开源机器人训练的标准之一。但Hugging Face的野心不止于软件。2025年他们收购了法国的Pollen Robotics,推出了7万美元的Reachy 2开源人形机器人,已经在康奈尔和CMU等顶尖实验室使用,还推出了250美元的Reachy Mini桌面机器人。更早之前,他们和The Robot Studio合作推出了SO-100机械臂,成本只要100美元,任何人都可以在家3D打印DIY一个。由此可见,Hugging Face正在把“硬件加软件加社区”打包,构建一个完整的开源机器人生态。而2024年12月发布的Genesis则尝试优化仿真训练的问题。这是由CMU卡内基梅隆大学主导、联合MIT、斯坦福、英伟达等20多个研究实验室共同参与的开源项目,只需在仿真中运行数小时,就能生成相当于现实世界中多年训练的样本数据,大幅降低了训练时间和硬件成本。比如说,Genesis号称在一张RTX 4090显卡,模拟一个Franka机械臂的速度是每秒4300万帧。这是实时速度的43万倍。在Genesis里训练1小时,相当于在真实世界训练超过49年。这带来的改变是,以前只有大公司能负担的大规模仿真训练,现在一个研究生在家用一张消费级显卡就能做。值得注意的是,英伟达也和Google DeepMind、Disney Research联合开发了一个开源物理引擎Newton,跟Genesis形成了直接竞争,所以仿真工具领域本身也是一个充满竞争的领域。但无论如何,一部分勋章应该要给到Hugging Face,LeRobot管真实世界,学界主导的Genesis管虚拟世界,两个工具一起,把“训练机器人”的门槛从百万美元降到了几百美元。总结一下,模型、数据、工具,这三层叠加,就是开源阵营的“组合拳”。单看任何一层,开源都不如闭源巨头:论人才密度和算力,不如谷歌;论数据量,不如特斯拉;论工具链的完整度,不如英伟达。但三层联动产生的化学反应,释放出了巨大的能量。一个研究者可以用Open X-Embodiment的数据,在LeRobot框架上训练OpenVLA,用Genesis做仿真验证,然后部署到100美元的SO-100机械臂上。整个流程全部开源,全部免费,全部可复现。这里有一个很关键的观察:在大语言模型领域,开源是追赶者。OpenAI、Anthropic和Google先行,开源后追,晚一到两代。但在机器人领域,开源和闭源几乎是同时起跑的。OpenVLA在2024年6月就击败了RT-2-X,这个时间差的原因很简单:机器人还在非常早期的阶段,没有任何一家公司建立了压倒性的数据或算法优势。这是开源难得的“公平竞赛”窗口,如果错过这个窗口,等闭源公司积累了足够的数据飞轮,开源可能就很难追上了。而且,开源和闭源之间的边界远比想象的更模糊。RT-2-X是谷歌的“闭源”模型,但它的训练数据有一部分来自Open X-Embodiment这个开源数据集。Chelsea Finn同时是Octo这个开源项目的核心作者,也是RT系列闭源工作的推动者,还是PI的联合创始人。而英伟达的GR00T N1介于开源和闭源之间。所以,这场竞争不是两个阵营的对决,而是一个光谱上的多方博弈。而说到底,开源vs闭源,表面是技术路线之争,本质是生态之争,争的还是谁来定义机器人行业的基础设施层。04 开源的挑战与未来,算力、数据质量、工程化差距与安全但对于生态来说,必须要直面一个现实:开源面临的挑战依然很大。首先是算力门槛,虽然有Octo这样的轻量模型,但训练一个顶级开源模型仍然需要不小的投入。OpenVLA用了64张A100跑了15天,这跟特斯拉、谷歌的算力相比是小巫见大巫,但对普通研究者来说仍然是一笔不小的开支。其次是数据质量,Open X-Embodiment虽然大,但不同来源的数据标注标准参差不齐,有的实验室标注非常细致,有的比较粗糙。特斯拉的数据可能在多样性上不如开源,但在一致性上更强,毕竟都是同一套系统采集的。第三是工程化差距,开源模型在论文里表现出色,但从demo到产品之间有一道巨大的鸿沟。闭源公司有完整的工程团队做优化、做测试、做售后,开源社区更擅长创新探索。但把一个模型打磨成稳定可靠的商业产品,往往需要闭源公司来完成。第四是安全问题,如果人人都能训练机器人,如何防止被用于危险用途?物理世界的AI比虚拟世界的大语言模型风险更高,聊天机器人说错话最多是尴尬,但物理机器人做错动作可能造成伤害。OpenMind的Jan Liphardt提出了一个大胆的方案:用区块链来约束机器人行为,这个想法很前卫,也确实在业界也引发了一些争议。但它至少说明,开源社区正在认真思考安全问题。开源能发展到什么程度?自变量CTO王昊给出了一个时间线预测:GPT-3的水平意味着机器人会从“能完成简单指令”跳跃到“能理解复杂意图并灵活执行”,这将是一个分水岭。在LLM时代,我们见证了OpenAI从“开放”走向封闭。一个以“Open”命名的公司,变成了一家市值千亿的闭源商业帝国。在机器人时代,同样的故事可能重演,但也可能不会。因为机器人领域有一个大语言模型时代没有的东西:从一开始就足够强大的开源生态。最后,OpenMind创始人Jan Liphardt从一个父亲的角度解释了为什么他支持开源,这个回答还蛮有人味儿的:这就是具身智能开源模型生态的现状。这篇文章详细聊了四个派系:学院派,巨头,包括了中国公司在内的创业派,以及单独拎出来讲的Physical Intelligence。大家出于不同的目的、在不同程度上参与了开源生态的搭建,确定的是,这样的生态正在帮助我们进一步突破技术和创新的边界。更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App