8月25日,在首届技术开放日(TechDay)上,群核科技正式发布了其空间大模型的最新成果:新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen,并宣布将延续开源战略,逐步向全球开发者开放模型。 作为专注于3D室内场景认知与生成的模型体系,群核空间大模型主要围绕真实感全息漫游、结构化可交互及复杂室内场景处理三个方向构建其技术优势。 本次发布的SpatialLM 1.5是一款基于大语言模型训练的空间语言模型 。群核科技首席科学家周子寒在技术交流中解释,SpatialLM并非在视觉语言模型(VLM)上增加新模态,而是让大语言模型学会了一种新的“空间语言”。这种语言能以数字文本的形式,精确描述场景中物体的空间结构、几何信息、相互关系及物理参数。 通过对话系统SpatialLM-Chat,用户输入简单的文本指令,模型即可自动生成包含物理正确信息的结构化3D场景脚本,并智能匹配家具进行布局。该模型还能通过自然语言进行场景问答与编辑,例如,在现场演示中,当输入“去客厅餐桌拿药”指令后,模型不仅理解了物体对象,还调用工具自动规划出行动路径,展示了其在机器人场景中的应用潜力。 群核科技联合创始人兼董事长黄晓煌在演讲中提到,当前空间智能发展的一大瓶颈在于三维可交互数据的稀缺,尤其是在物理世界对应的室内空间数据获取难度极大。SpatialLM 1.5能够快速、批量地生成大量符合要求且多样化的场景,可直接用于机器人路径规划、避障和任务执行等训练,为解决当前机器人训练数据不足的难题提供了有效途径。 与SpatialLM专注于“理解与交互”不同,SpatialGen模型则聚焦于“生成与呈现”。它是一款基于扩散模型架构的多视角图像生成模型,可根据文字、参考图和3D空间布局,生成具有时空一致性的多视角图像。 群核科技AI产品总监龙天泽指出,当前主流AI视频生成工具基于2D图像序列学习,缺乏对3D空间和物理规则的真正理解,因此在视角切换或复杂运动时,常出现物体位置偏移、背景混乱、模型穿模等空间逻辑错误。 SpatialGen通过生成空间属性和物理关系在不同镜头下保持一致的多视角图像,并能进一步生成3D高斯(3DGS)场景,最终渲染出可供用户自由漫游的视频 。这一方案旨在从根本上解决当前AIGC视频生成中的时空一致性难题 。龙天泽透露,公司正在研发一款深度融合3D能力的AI视频生成产品,计划于年内发布。 黄晓煌在活动现场分享了群核科技的空间智能战略布局,其核心是“空间编辑工具-空间合成数据-空间大模型”构成的空间智能飞轮 。通过酷家乐等工具的广泛应用,沉淀海量数据;利用这些数据加速模型训练;再以强大的模型能力反哺和提升工具体验,从而形成正向循环 。截至2025年6月30日,群核科技已拥有超过4.41亿个3D模型及超过5亿个结构化3D空间场景。 黄晓煌表示,开源是群核科技战略的重要组成部分,公司自2018年起便开始逐步开放数据和算法能力。他认为,当前空间大模型尚处初级阶段,希望通过开源与全球开发者共同将“蛋糕”做大,推动技术快速前进。 据悉,本次发布的两款模型将陆续在Hugging Face、GitHub和魔搭社区等平台开源 。其中,SpatialGen在技术开放日当天已开放下载,而SpatialLM 1.5未来也将以“SpatialLM-Chat”的形式完成开源。