机器人开源革命：“免费大脑”背后的四派力量与博弈

Wait 5 sec.

文 | 硅谷101今年2月前后，小米、蚂蚁、阿里达摩院、宇树纷纷发布机器人开源模型。再之前，英伟达在CES上发布了GR00T N1.6，把自家号称“世界首个开放人形机器人基础模型”又再度升级。这些消费电子公司、互联网巨头、芯片帝国，最近都一股脑把机器人的“大脑”拿出来，免费给全世界用。机器人开源模型的生态中，有什么样的心机和万亿美元押注的博弈呢？本篇文章我们继续机器人系列，之前我们“机器人闭源模型”那篇文章分析了如今具身智能通用的VLA模型，拆解了特斯拉、Figure这些闭源巨头的不同路线，以及他们如何用硬件和数据优势构筑护城河。而这篇文章，我们与全球顶尖具身智能实验室的研究人员深聊之后，来扒一扒开源算法路线中的核心玩家和关键的技术领军人物们。同时我们来试图回答这三个问题：第一：这些开源模型分别走了什么技术路线，为什么能挑战巨头？第二：开源的动机是什么？什么是“真”开源，什么是“假”开源？第三：开源模型生态是什么样的？面对特斯拉这样的对手，开源社区拿什么打？01 开源模型全景，谁在做，走什么路？在开源模型派别中，VLA模型仍然是主流。简单来说，就是让机器人“看到”周围环境，“听懂”你的指令，然后“做出”正确的动作。目前，开源VLA模型大致可以分成四股力量：1. 学院派：参数不大，但能以小博大，代表模型是OpenVLA和Octo。2. 巨头生态派：不只做模型，还布局整套工具链，代表是英伟达的GR00T N1和谷歌的Gemini Robotics。3. 创业公司与中国力量：自变量、OpenMind、小米、蚂蚁等等。4. 技术极致派：追求极致精度和泛化能力，代表模型是Physical Intelligence的π₀。1.1：学院派的理想主义OpenVLA的一战成名，发生在2024年6月。这个只有70亿参数的开源模型，在29项机器人操作任务中，全面击败了“顶流”谷歌DeepMind的RT-2-X。RT-2-X有550亿参数，是OpenVLA的8倍大，背后站着整个谷歌的算力和数据资源。但结果是：OpenVLA的成功率比RT-2-X高出16.5%。OpenVLA以小博大，凭的是一个很聪明的架构设计：两个视觉编码器加大语言模型。对比谷歌RT-2-X，因为它只用了一个视觉编码器，你可以想象成一个超聪明但什么都自己做的人：能力很强，但信息处理效率更低。而OpenVLA用了两个视觉编码器，相当于有“两双眼睛”。第一双眼睛叫“DINOv2”，负责理解空间关系；第二双眼睛叫“SigLIP”，专门理解语义和常识。然后再由当时的开源大语言模型Llama 2充当“大脑”，把空间信息和语义信息融合起来，处理指令和推理。简单来说，OpenVLA像一个三人小团队协同作战，把两类信息物理隔离、各自优化，再统一决策，整体反而更强。大家大概可以理解成“三个臭皮匠，顶个诸葛亮”。这个架构证明了：在具身智能领域，单纯的“大”并不代表“聪明”。OpenVLA还有一个数据集的优势，叫做“Open X-Embodiment”，这也是开源生态的一个非常厉害的优势，后文会详细展开。另外，OpenVLA还在动作表示方式和训练策略上做了优化。所以它这次对谷歌的胜利靠的是“数据+架构+训练策略”的综合结果。而且，OpenVLA在胜出之后彻底开源：代码、模型权重、训练脚本全部公开。这样的开放姿态让整个行业都非常兴奋，开始各种后续的优化、推理加速和微调。这就是一个非常典型的开源故事，能用创新方式去“以小搏大”，撬动整个技术领域的后续工作。我们再说说另外一个比较典型的开源路线“Octo”。如果说OpenVLA代表“规模化开源”，Octo就是“普及型开源”。我们知道，机器人算法的“泛化性”是个很大的挑战，之前的标准做法是需要针对特定机器人用特定数据集来训练策略，但你换一个机器人、换一个环境，就要全部重新来训。而一些开源社区的大牛们就希望实现“通用机器人模型”，通过zero-shot这样的技术将模型扩展到广泛的机器人和场景中。这样的路径被称为“通用机器人策略”，Octo就是其中的代表。Octo只有数千万参数，比OpenVLA的规模更小。它是一个基于Transformer的扩散策略模型，设计强调灵活性和可扩展性，支持多种机器人平台和传感器配置，并能够通过微调快速适应新的观察和动作空间。这使得Octo可以广泛应用于不同的机器人学习场景。Octo的定位不是最强，而是人人可用，希望给开源社区提供一个更轻量、可快速适配的通用策略基础模型。1.2 巨头生态一条龙2025年3月的GTC大会上，黄仁勋亲自站台，发布了GR00T N1，号称“世界首个开放人形机器人基础模型”。到2026年1月CES，已经迭代到了N1.6版本。GR00T N1采用双系统架构：一个基于视觉语言模型的“System 2”负责慢思考，理解环境、解读指令、做出规划；一个基于扩散Transformer的“System 1”负责快思考，以高频率把规划转化为精确的关节动作。两个系统端到端联合训练，紧密耦合。22亿参数，模型权重和代码都公开了，不少头部人形机器人公司都获得了早期使用权。而且英伟达不只给了模型，还给了整套生态：用Omniverse做数字孪生，用Isaac Sim生成合成训练数据，用Cosmos生成视频数据，用Newton物理引擎做仿真，整个一条龙服务。Google在机器人通用策略上也在持续布局。早期的RT-1开源了代码和数据，但后续更强大的RT-2以及之后的RT系列就变成闭源模型了，并没有对外开放。最近Google也在加速。2025年发布了Gemini Robotics系列模型，还挖来了前波士顿动力首席技术官Aaron Saunders担任硬件工程副总裁。DeepMind CEO Demis Hassabis把这个愿景称为“机器人界的安卓”，做通用的机器人操作系统，让Gemini成为各种机器人的“大脑”。在2026年CES上，波士顿动力和Google DeepMind宣布了战略合作，将Gemini Robotics模型整合到Atlas人形机器人中，联合研究即将在两家公司的实验室展开。Google从开源到闭源、再到想要打造“机器人界的安卓”，赛道转换有点快、野心有点大，但它绝对是机器人行业的最重要玩家，我们也拭目以待它的下一步动向。中国在开源具身智能领域的参与正在加速，而且态势在从单纯的“跟跑”向“参与定义规则”转变。小米在2月12号刚发布的Xiaomi-Robotics-0，47亿参数，用MoT混合架构——把“大脑”（视觉语言理解）和“小脑”（动作执行）分开，改善了VLA模型普遍存在的推理延迟问题。模型开源，在消费级GPU上就能跑。蚂蚁集团的LingBot-VLA走了另一条路，强调跨形态泛化。这个模型在9种不同的双臂机器人上预训练了2万多小时的真机数据，目标是做到“一个大脑控制所有类型的机器人”，有点像我们之前提到的“通用机器人策略”路线。清华AIR和上海AI实验室联合推出的X-VLA，刷新了五大仿真基准，代码、数据、权重全部公开，可以说是学术界最彻底的开源范本之一。星海图开源了真机数据集，以及旗下最新的G0 Plus VLA模型；智元机器人的GO-1已经部署到了真机上执行任务；星动纪元的ERA-42也在探索自己的路线。另外，自变量机器人是一家聚焦于通用机器人“大脑”研发的中国具身智能创业公司，CTO王昊在之前与硅谷101播客谈到了开源的初衷。在硅谷的初创公司中，我们对话了由斯坦福教授Jan Liphardt创立的OpenMind。他说，希望为不同厂商的人形机器人构建一个通用的软件层。OpenMind推出的OM1平台强调开源与跨硬件兼容，希望打破当前机器人系统各自封闭的局面，让不同设备可以共享能力与生态。他们也从一开始就以开源为核心理念来打造具身智能平台，代表了一种纯粹的开源路线。目前开源界最受瞩目的模型π₀，是Physical Intelligence推出的VLA模型，属于数十亿参数级别。π₀代表的是另一条思路：把“连续控制”做到极致。在动作生成部分，π₀使用了flow matching（流匹配）思路，直接生成连续的关节轨迹。这意味着模型输出的是一段平滑的控制信号。Physical Intelligence研究员、也是π₀、π₀.₅论文作者柯丽一鸣在接受硅谷101播客的时候就告诉我们，π₀控制频率约为50Hz，也就是每秒更新约50次动作。这种高频连续控制带来了一个质的飞跃：π₀能做折纸、玩扑克牌这种需要极高精度的任务——而这些是OpenVLA和Octo都很难胜任的。从设计理念上看，π₀更强调“控制质量”和“动作连续性”。相比把动作当作语言token预测，它更接近传统控制系统的形式，只不过控制信号由大模型生成。这一选择带来的好处是，在折叠衣物、抓取柔性物体、操作细小零件等任务中，动作更加流畅，减少了抖动和迟滞。同时，π₀的代码与权重通过OpenPI项目对外开放，使研究社区可以在它的基础上复现与扩展。这种做法在商业公司中并不常见，也成为开源阵营的重要力量。更令人关注的是π₀的迭代节奏。初版论文发布后不久，Physical Intelligence通过OpenPI项目公开了模型权重与代码。随后数月内，团队陆续发布更新版本，持续改进泛化能力与控制稳定性。随后引入强化学习机制以进一步优化策略表现，同时强调在开放环境中的适应能力。在机器人领域，这种快速迭代与持续公开更新并不常见，也成为π₀受到关注的重要原因之一。不同阵营背后的主导核心人物也并非对立关系，他们的关系紧密且错综复杂。而更有意思的是，曾经主导闭源模型的多位顶级科学家，后来成为了机器人开源社区的领导者。他们又被称为机器人界的“复仇者联盟”。OpenVLA来自斯坦福和伯克利的联合团队，核心人物是这个领域的明星人物Chelsea Finn。她MIT本科毕业，又在伯克利拿到博士学位，师从机器人学习教父级人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教，随后一路拿奖到手软。她同时还是Physical Intelligence的联合创始人，横跨学术和商业两个世界。可以说，Chelsea Finn一人就串起了开源和闭源阵营的半壁江山。在Finn教授以外，我们可以看到OpenVLA的作者名单上除了斯坦福和伯克利的一众研究人员，还有丰田研究院、Google DeepMind、Physical Intelligence、MIT的科学家。这说明，OpenVLA并不只是一个闭门造车的实验室产物。Octo和OpenVLA可以说是“同门师兄弟”，同样来自伯克利，由Chelsea Finn和Sergey Levine的团队联合出品。Sergey Levine是机器人强化学习领域公认的开创者之一，他是伯克利教授、Google Brain前研究科学家，后来也成了Physical Intelligence的联合创始人和首席科学家，他跟Finn是博导和博士生的关系。有趣的是，Levine和Finn在Google时期参与了RT-1、RT-2这些闭源项目，离开后又推动了Octo和OpenVLA这些开源工作。这个领域中的同一批人，可以说既造了闭源的堡垒，也打开了开源的大门。PI的创始团队堪称是机器人AI领域的“复仇者联盟”，联合创始人们各个都是来自学术界或者科技公司的大佬。其中，Karol Hausman是Google DeepMind机器人方向的资深研究科学家，也是RT-1、RT-2和SayCan等标志性机器人大模型工作的核心作者之一。Brian Ichter同样来自Google Brain，深度参与了这些项目的研发，是那一代机器人基础模型的重要推动者。Sergey Levine长期与Google Brain合作，在机器人学习和强化学习领域处于世界前沿，是这条技术路线的关键思想源头之一。我们前面提到好几次的Chelsea Finn也是PI的联合创始人之一，她也参与了RT系列研究，在机器人泛化与自监督学习方向做出了重要贡献。2024年初，这几位参与Google机器人基础模型路线的核心成员陆续离开Google，并共同创办了Physical Intelligence（PI）。此外，团队成员还包括前Stripe高管兼知名投资人Lachy Groom，以及前Anduril工程副总裁Adnan Esmail。说白了，是闭源阵营里最懂技术的一帮人，决定跳出来换一种方式做事。但π₀的身份很“纠结”，它来自一家刚成立、融资就超过10亿美元、估值56亿美元的商业公司。这样一家公司，为什么要把最核心的模型开源？这就要说到我们的第二个核心问题：“真”开源和“假”开源。02 开源的“真”与“假”，免费背后的商业心机Physical Intelligence2024年成立，投资人包括Jeff Bezos、OpenAI、Sequoia Capital、Khosla Ventures。2024年11月融了4亿美元，2025年11月又融了6亿美元，估值达到56亿美元。一家这么有钱的公司，为什么要把核心模型免费放出来？答案是：这可能是Physical Intelligence最有“心机”的商业策略。第一，开源建立标准。当全世界的机器人开发者，无论是学术实验室、创业公司或者工业客户，都在π₀的框架上构建应用，PI就成了事实标准的定义者。别人的每一次使用，都在巩固π₀的生态地位。第二，开源吸引人才。最优秀的研究者想去能发论文、能影响行业的地方，PI开源π₀之后，他们的openpi GitHub仓库就成了机器人领域最热的项目之一，这比任何招聘广告都有效。第三，开源加速数据飞轮。社区使用你的模型，发现问题、做出改进、贡献数据，这些都回流给PI，让下一代模型更强。但要注意，π₀不是100%开源。模型权重和推理代码公开了，但完整的训练流程和PI内部采集的数万小时专有数据没有公开。这是一种精心设计的“开源引流、闭源变现”策略，也就是用开源的模型吸引开发者进入你的生态，用闭源的数据和训练能力保持竞争优势。也就是说社区可以用它的模型，但想要最好的版本，还得来找它。我们前面提到，英伟达不只给了模型GR00T N1，还给了整套生态，包括生成合成训练数据的工具、物理引擎等等。听起来非常“开放”，但为什么有人说GR00T N1是“伪开源”？因为模型虽然开放了，整个流程都在英伟达的生态里：训练深度绑定英伟达的硬件生态，用H100集群训练，在Omniverse平台上做仿真，用Isaac Sim生成合成数据，最后部署在Jetson Thor芯片上。对比纯粹的社区开源，比如OpenVLA和Octo没有任何硬件绑定，没有生态锁定，在任何GPU上都能跑。这也许是“开放”和“开源”之间的根本区别。但行业如此早期，也许根本没有什么选择是正确或错误的。学术开源追求的是知识共享和科学可复现性，商业开源追求的是生态控制和市场标准，而战略开放追求的是平台锁定和硬件销售。03 生态的力量，模型+数据+工具的“组合拳”特斯拉有自己的工厂、自己的机器人、自己的数据闭环。英伟达有全世界最强的算力。谷歌汇聚了最顶尖的人才。开源社区一帮大学教授和创业团队，凭什么能跟这些巨头掰手腕？答案是：生态。单看任何一个开源模型，都不如闭源巨头。但模型、数据、工具三层生态叠加，形成的“组合拳”力量，就让故事不一样了。也就是说，闭源看似安全，但没有社区帮你测试和改进，反而可能变成一个人闷头造车。目前开源生态的第一个优势就是数据集。我们前面提到，OpenVLA横空出世，就是用了Open X-Embodiment的数据集。Open X-Embodiment是开源阵营最宝贵的优势：一个跨平台、跨实验室的机器人数据公共资源，它的规模和组织方式在机器人领域前所未有：超过20个研究机构共同贡献，包括斯坦福、伯克利、MIT、CMU、Google DeepMind等顶级实验室；22种不同的机器人本体，从单臂机械臂到双臂协作、从桌面操作到移动导航再到人形机器人；超过100万条真实轨迹，覆盖527种技能。特斯拉的数据可能更大，但全是Optimus一种机器人在特斯拉环境里的数据。Figure的数据也只有Figure 01和02的操作。而Open X-Embodiment是几十种不同形态的机器人，在厨房、实验室、仓库、办公室等完全不同的场景里采集的数据。为什么数据的多样性比数据量更重要？用训练RT-X模型的实验结果来说明：RT-1-X在小数据域的表现比单独训练的模型高了50%，RT-2-X甚至涌现出了原模型没有的空间推理能力，是RT-2的3倍，能理解“on”和“near”这种细微的语言差异，这意味着它开始理解语言中的空间语义，知道“on”意味着物体之间要建立接触和支撑关系，而“near”只是空间邻近。除此之外，它还能执行训练时从未见过的技能组合。这直接证明了：只要数据够多样，就算模型不是最大的，性能也能有大幅提高。更值得一提的是数据格式的标准化贡献。以前最头疼的问题是每个实验室的数据格式都不一样：伯克利是一种格式，斯坦福是另一种，MIT又是第三种。想用多个数据集一起训练？先花几个月写转换代码。而Open X-Embodiment定义了统一的数据格式，涵盖视觉观察、本体感知、动作序列和语言注释，所以在产业中有了一个统一的标准，这个很重要。再说一句数据的问题，因为这是目前机器人领域最大的挑战，我们的嘉宾之间分歧也很大，一派认为大语言模型已经包含了足够的物理常识，只需少量机器人数据微调，而另外一派认为物理世界的细节必须用真实的机器人数据来学习，互联网视频远远不够。这里面的门道和技术可以挖得蛮深，不同的任务、不同的精度要求，需要不同的数据策略。所以，关于数据，我们之后还会单独做一期机器人系列的深度内容。光有数据不够，还需要工具把数据变成可以训练的模型，这就是LeRobot和Genesis的角色。LeRobot是Hugging Face从特斯拉挖来的工程师Remi Cadene带队打造的开源项目。Cadene之前在特斯拉参与过Autopilot和Optimus人形机器人项目。他带着这些经验来到Hugging Face，目标是“让训练机器人像训练语言模型一样简单”。LeRobot做了三件关键的事：1. 定义了LeRobotDataset统一数据格式。2. 一键集成了多种主流策略模型，你不需要去读论文改代码，直接调用就行。3. 打通了数据采集、模型训练、到真实机器人部署的全流程，以前这三步可能需要三套不同的工具链。LeRobot的GitHub已经超过2万星，成为了开源机器人训练的标准之一。但Hugging Face的野心不止于软件。2025年他们收购了法国的Pollen Robotics，推出了7万美元的Reachy 2开源人形机器人，已经在康奈尔和CMU等顶尖实验室使用，还推出了250美元的Reachy Mini桌面机器人。更早之前，他们和The Robot Studio合作推出了SO-100机械臂，成本只要100美元，任何人都可以在家3D打印DIY一个。由此可见，Hugging Face正在把“硬件加软件加社区”打包，构建一个完整的开源机器人生态。而2024年12月发布的Genesis则尝试优化仿真训练的问题。这是由CMU卡内基梅隆大学主导、联合MIT、斯坦福、英伟达等20多个研究实验室共同参与的开源项目，只需在仿真中运行数小时，就能生成相当于现实世界中多年训练的样本数据，大幅降低了训练时间和硬件成本。比如说，Genesis号称在一张RTX 4090显卡，模拟一个Franka机械臂的速度是每秒4300万帧。这是实时速度的43万倍。在Genesis里训练1小时，相当于在真实世界训练超过49年。这带来的改变是，以前只有大公司能负担的大规模仿真训练，现在一个研究生在家用一张消费级显卡就能做。值得注意的是，英伟达也和Google DeepMind、Disney Research联合开发了一个开源物理引擎Newton，跟Genesis形成了直接竞争，所以仿真工具领域本身也是一个充满竞争的领域。但无论如何，一部分勋章应该要给到Hugging Face，LeRobot管真实世界，学界主导的Genesis管虚拟世界，两个工具一起，把“训练机器人”的门槛从百万美元降到了几百美元。总结一下，模型、数据、工具,这三层叠加，就是开源阵营的“组合拳”。单看任何一层，开源都不如闭源巨头：论人才密度和算力，不如谷歌；论数据量，不如特斯拉；论工具链的完整度，不如英伟达。但三层联动产生的化学反应，释放出了巨大的能量。一个研究者可以用Open X-Embodiment的数据，在LeRobot框架上训练OpenVLA，用Genesis做仿真验证，然后部署到100美元的SO-100机械臂上。整个流程全部开源，全部免费，全部可复现。这里有一个很关键的观察：在大语言模型领域，开源是追赶者。OpenAI、Anthropic和Google先行，开源后追，晚一到两代。但在机器人领域，开源和闭源几乎是同时起跑的。OpenVLA在2024年6月就击败了RT-2-X，这个时间差的原因很简单：机器人还在非常早期的阶段，没有任何一家公司建立了压倒性的数据或算法优势。这是开源难得的“公平竞赛”窗口，如果错过这个窗口，等闭源公司积累了足够的数据飞轮，开源可能就很难追上了。而且，开源和闭源之间的边界远比想象的更模糊。RT-2-X是谷歌的“闭源”模型，但它的训练数据有一部分来自Open X-Embodiment这个开源数据集。Chelsea Finn同时是Octo这个开源项目的核心作者，也是RT系列闭源工作的推动者，还是PI的联合创始人。而英伟达的GR00T N1介于开源和闭源之间。所以，这场竞争不是两个阵营的对决，而是一个光谱上的多方博弈。而说到底，开源vs闭源，表面是技术路线之争，本质是生态之争，争的还是谁来定义机器人行业的基础设施层。04 开源的挑战与未来，算力、数据质量、工程化差距与安全但对于生态来说，必须要直面一个现实：开源面临的挑战依然很大。首先是算力门槛，虽然有Octo这样的轻量模型，但训练一个顶级开源模型仍然需要不小的投入。OpenVLA用了64张A100跑了15天，这跟特斯拉、谷歌的算力相比是小巫见大巫，但对普通研究者来说仍然是一笔不小的开支。其次是数据质量，Open X-Embodiment虽然大，但不同来源的数据标注标准参差不齐，有的实验室标注非常细致，有的比较粗糙。特斯拉的数据可能在多样性上不如开源，但在一致性上更强，毕竟都是同一套系统采集的。第三是工程化差距，开源模型在论文里表现出色，但从demo到产品之间有一道巨大的鸿沟。闭源公司有完整的工程团队做优化、做测试、做售后，开源社区更擅长创新探索。但把一个模型打磨成稳定可靠的商业产品，往往需要闭源公司来完成。第四是安全问题，如果人人都能训练机器人，如何防止被用于危险用途？物理世界的AI比虚拟世界的大语言模型风险更高，聊天机器人说错话最多是尴尬，但物理机器人做错动作可能造成伤害。OpenMind的Jan Liphardt提出了一个大胆的方案：用区块链来约束机器人行为，这个想法很前卫，也确实在业界也引发了一些争议。但它至少说明，开源社区正在认真思考安全问题。开源能发展到什么程度？自变量CTO王昊给出了一个时间线预测：GPT-3的水平意味着机器人会从“能完成简单指令”跳跃到“能理解复杂意图并灵活执行”，这将是一个分水岭。在LLM时代，我们见证了OpenAI从“开放”走向封闭。一个以“Open”命名的公司，变成了一家市值千亿的闭源商业帝国。在机器人时代，同样的故事可能重演，但也可能不会。因为机器人领域有一个大语言模型时代没有的东西：从一开始就足够强大的开源生态。最后，OpenMind创始人Jan Liphardt从一个父亲的角度解释了为什么他支持开源，这个回答还蛮有人味儿的：这就是具身智能开源模型生态的现状。这篇文章详细聊了四个派系：学院派，巨头，包括了中国公司在内的创业派，以及单独拎出来讲的Physical Intelligence。大家出于不同的目的、在不同程度上参与了开源生态的搭建，确定的是，这样的生态正在帮助我们进一步突破技术和创新的边界。更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App