群核科技发布空间大模型，旨在解决AI视频空间一致性难题

Wait 5 sec.

8月25日，在首届技术开放日（TechDay）上，群核科技正式发布了其空间大模型的最新成果：新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen，并宣布将延续开源战略，逐步向全球开发者开放模型。作为专注于3D室内场景认知与生成的模型体系，群核空间大模型主要围绕真实感全息漫游、结构化可交互及复杂室内场景处理三个方向构建其技术优势。   本次发布的SpatialLM 1.5是一款基于大语言模型训练的空间语言模型。群核科技首席科学家周子寒在技术交流中解释，SpatialLM并非在视觉语言模型（VLM）上增加新模态，而是让大语言模型学会了一种新的“空间语言”。这种语言能以数字文本的形式，精确描述场景中物体的空间结构、几何信息、相互关系及物理参数。通过对话系统SpatialLM-Chat，用户输入简单的文本指令，模型即可自动生成包含物理正确信息的结构化3D场景脚本，并智能匹配家具进行布局。该模型还能通过自然语言进行场景问答与编辑，例如，在现场演示中，当输入“去客厅餐桌拿药”指令后，模型不仅理解了物体对象，还调用工具自动规划出行动路径，展示了其在机器人场景中的应用潜力。群核科技联合创始人兼董事长黄晓煌在演讲中提到，当前空间智能发展的一大瓶颈在于三维可交互数据的稀缺，尤其是在物理世界对应的室内空间数据获取难度极大。SpatialLM 1.5能够快速、批量地生成大量符合要求且多样化的场景，可直接用于机器人路径规划、避障和任务执行等训练，为解决当前机器人训练数据不足的难题提供了有效途径。与SpatialLM专注于“理解与交互”不同，SpatialGen模型则聚焦于“生成与呈现”。它是一款基于扩散模型架构的多视角图像生成模型，可根据文字、参考图和3D空间布局，生成具有时空一致性的多视角图像。群核科技AI产品总监龙天泽指出，当前主流AI视频生成工具基于2D图像序列学习，缺乏对3D空间和物理规则的真正理解，因此在视角切换或复杂运动时，常出现物体位置偏移、背景混乱、模型穿模等空间逻辑错误。 SpatialGen通过生成空间属性和物理关系在不同镜头下保持一致的多视角图像，并能进一步生成3D高斯（3DGS）场景，最终渲染出可供用户自由漫游的视频。这一方案旨在从根本上解决当前AIGC视频生成中的时空一致性难题。龙天泽透露，公司正在研发一款深度融合3D能力的AI视频生成产品，计划于年内发布。黄晓煌在活动现场分享了群核科技的空间智能战略布局，其核心是“空间编辑工具-空间合成数据-空间大模型”构成的空间智能飞轮。通过酷家乐等工具的广泛应用，沉淀海量数据；利用这些数据加速模型训练；再以强大的模型能力反哺和提升工具体验，从而形成正向循环。截至2025年6月30日，群核科技已拥有超过4.41亿个3D模型及超过5亿个结构化3D空间场景。黄晓煌表示，开源是群核科技战略的重要组成部分，公司自2018年起便开始逐步开放数据和算法能力。他认为，当前空间大模型尚处初级阶段，希望通过开源与全球开发者共同将“蛋糕”做大，推动技术快速前进。据悉，本次发布的两款模型将陆续在Hugging Face、GitHub和魔搭社区等平台开源。其中，SpatialGen在技术开放日当天已开放下载，而SpatialLM 1.5未来也将以“SpatialLM-Chat”的形式完成开源。