数十家企业争相接入GLM-5.1,中国大模型从“追赶”进入“攻坚”

Wait 5 sec.

一个尚未盈利的AI公司,连续发布三个模型后,不到三个月,中国前十大互联网公司中有九家争相接入了它。4月8日,智谱AI在广州发布开源大模型GLM-5.1,这是继2月12日GLM-5、3月16日GLM-5-Turbo之后的第三款模型。三款模型发布后,一个有趣的现象反复出现:大量国内企业密集在社交媒体、官网官宣“已接入”,涵盖互联网公司、云服务商、软件厂商、芯片企业,大中小皆有。据公开信息可查证,GLM-5系列已获得至少18家企业的公开接入或适配官宣,覆盖四个层级:互联网头部厂商中,字节跳动(TRAE编程助手)、阿里巴巴(Qoder)、腾讯(CodeBuddy/WorkBuddy全系)、百度(智能云千帆平台)、美团(CatPaw)、快手(万擎)均已集成。智谱在上市后首份财报(3月31日)中明确表示,“GLM-5发布后24小时内即获得字节跳动TRAE/扣子Coze、阿里巴巴Qoder、腾讯CodeBuddy、美团CatPaw、快手万擎、百度智能云及WPS Office等头部平台产品的官方接入”,并称“中国前10大互联网公司中已有9家深度集成GLM”。GLM-5.1发布当天,腾讯将CodeBuddy与WorkBuddy全线产品升级至GLM-5.1,百度宣布完成“Day0全栈适配”,字节跳动TRAE实现Day0同步首发。云服务商方面,华为云在发布日当天即上线码道(CodeArts)代码智能体,用户激增引发排队;金山云于4月10日上线星流平台;优刻得早在GLM-5阶段即完成接入。软件与硬件厂商中,金山办公(WPS灵犀)、字节跳动旗下扣子Coze、模型路由平台OpenRouter、软通动力(机械革命“龙虾盒子”终端首发搭载GLM-5-Turbo)分别以深度集成、API接入、硬件搭载等方式接入。值得注意的是,WPS灵犀实际接入时间(2月12日)早于其官方公告时间(2月14日),说明部分企业在正式官宣前已完成技术对接。最值得关注的是国产算力芯片的集体“Day0适配”——壁仞科技(壁砺166系列)、海光信息(DCU)、沐曦股份(曦云C系列)、清微智能(TX81 RPU)均在GLM-5.1发布当日宣布完成全量适配,加上全链路训练底座华为昇腾910B,构成了一条完整的国产算力适配链条。这种景象并不陌生——每当国内头部大模型发布,接入官宣便如约而至。但这一次,官宣的密度和速度明显高于以往,值得追问:这是模型真的足够好,还是一场集体营销?答案可能两者都有,但背后折射的是更深层的行业现实。GLM-5系列模型的接入潮,恰好是理解“中国大模型走到哪儿了”的一个切口。为什么这么多企业选择“官宣”接入?有三条逻辑可以解释这一现象。第一,MIT开源协议大幅降低了接入成本和风险。 从GLM-4.5到GLM-5再到GLM-5.1,智谱的旗舰模型全部采用MIT协议开源——可商用、可私有化部署、无使用限制。对大量中小企业和政务机构来说,这是商业闭源API不可替代的门槛优势:数据不必出内网,合规风险可控,采购审批更容易过。官宣接入的成本极低,理由却足够充分。第二,编程能力的真实突破,给了部分企业接入的产品价值支撑。 GLM-5.1在SWE-Bench Pro编程测试中拿到58.4分,超过Claude Opus 4.6(57.3分)和GPT-5.4(57.7分),并首次在该基准上以国产开源模型身份实现对顶级闭源产品的超越。对软件开发类企业而言,编程场景的能力提升是看得见的。接入不只是噱头,至少在编程这一条线上有实际使用场景。第三,“接入国产旗舰模型”本身具有营销价值。 在政企采购、融资路演、媒体曝光的语境下,官宣接入头部大模型是一张门槛不高但信号价值明显的牌。这与模型本身厉不厉害关系不大——而是中国AI生态中特有的宣发惯例。这三条逻辑,分别对应着技术、商业和生态三个层面的现实。要真正理解它们,需要从三个维度拆开来看:GLM-5.1的技术到底走到了哪里,开源与闭源的路线之争走到了哪里,智谱的商业化走到了哪里。突破是真实的,但“偏科”代价不小先说真实的进展。GLM-5.1延续了GLM-5的MoE架构:744B总参数、256专家混合、约44B激活参数,在全链路华为昇腾910B上完成训练。严格来说,这不是一次架构迭代,而是后训练阶段的定向优化——在编程和Agent场景加大了强化学习权重。从GLM-5到GLM-5.1,间隔不到八周,迭代速度本身值得肯定。核心突破集中在两个方向。其一,编程基准的数字跃升。 SWE-Bench Pro 58.4分,超越Claude Opus 4.6(57.3分)和GPT-5.4(57.7分),是国产开源模型在这一基准上的历史最高分。在Terminal-Bench和NL2Repo两项代码评测的综合平均中,GLM-5.1取得全球第三、国产第一、开源第一的排名。其二,“长程任务”能力的首次量化验证。 智谱将其定义为模型接收一项任务后持续工作数小时乃至更久的能力,官方展示了若干案例:模型在无监督下完成655轮迭代、超过6000次工具调用,将向量数据库QPS从3,547提升至21,500;14小时内将GPU计算内核加速35.7倍;8小时内自主搭建出包含窗口管理器、终端模拟器、文件浏览器的完整Linux桌面环境。这种行为模式更接近一个初级工程师,而非高级搜索引擎。但这里有两个必须标注的折扣。折扣一:评测体系本身的可信度存疑。 今年3月,AI安全研究机构METR发布研究指出,SWE-bench系列中被自动判定为“通过”的AI代码方案,约有一半会被真实项目维护者拒绝,自动评测可能将AI编程能力高估达7倍。几乎同期,OpenAI宣布弃用SWE-bench Verified作为评估标准,理由是自动评测与实际开发效能的偏差已不可忽视。GLM-5.1与Claude Opus 4.6之间不到1分的差距,在METR揭示的误差范围内,“全球最强开源模型”的标签需要审慎看待。折扣二:能力分布极不均匀。 Text Arena第三方竞技场的细分排名清楚呈现了代价:编程较前代跃升28名,但医疗掉24名,法律掉6名,数学掉2名。NL2Repo(从零构建代码仓库)上落后Claude Opus 4.6达7分(42.7对49.8)。知乎开发者“晴天”用阅读理解、SVG代码生成等场景做横向测试,结论是GLM-5.1连基本阅读理解都未达标;另一位通过Ollama本地部署的开发者评价“整体不如Qwen3.6-Plus”。这些个体测试不代表全貌,但共同指向一个事实:GLM-5.1是一个在编程和Agent方向刻意训练、其他领域有所牺牲的“偏科生”。偏科并不是贬义词,关键在于“偏的那个科”值不值得偏。编程和自主执行,目前确实是AI行业竞争最密集的赛道。但需要清醒认识到,就在GLM-5.1发布的同一天,Anthropic推出了Mythos Preview——SWE-Bench Pro拿到77.8分,领先GLM-5.1近20分。Mythos暂不公开,但它标定了行业能力的当前天花板,也说明竞争对手的储备远比已发布的产品更深厚。开源换信任,闭源换安全GLM-5.1发布当天,发生了一个对比鲜明的时间巧合。太平洋彼岸,Anthropic官宣了新一代模型Claude Mythos Preview——但没有向公众开放,而是定向提供给苹果、微软、谷歌、英伟达等12家合作伙伴和40余家基础设施组织,用于一个名为“Project Glasswing”的网络安全计划。同一天,两家公司各出一手牌,方向截然相反:一家将模型权重全量上传Hugging Face任人下载,另一家主动把最强模型锁进了围墙。这个巧合,是当前AI行业最核心路线分歧的缩影。智谱的开源逻辑,已经形成了清晰的商业飞轮设计:以MIT协议开源建立开发者信任→信任转化为企业采购时的优先考量→通过API调用和Agent执行收费实现变现。这条路在中国政企市场有结构性优势,数据合规要求高的行业(金融、政务、医疗)对“数据不出内网”有刚性需求,闭源API天然无法满足。Anthropic的闭源逻辑,则是另一套完全不同的证明路径:以安全为品牌核心,以能力背书商业化,通过已验证的企业服务口碑拉高定价。2025年,Anthropic ARR突破300亿美元,首次超越OpenAI同期的250亿美元——市场在用真金白银认可这套逻辑的合理性。两条路哪条更对?这个问题可能本身就问错了。更准确的表述是:两条路在各自的目标市场里,目前都找到了需求锚点。但两条路也各有各的真实风险。智谱开源路线的隐患在于:开源能赢口碑,未必能赢市场定价权。 MIT协议意味着任何人可以免费使用模型权重,智谱的商业回报只能来自服务层的API和Agent——在一个主要竞争对手把Token定价压到国际竞品十分之一的市场里,提价的空间天然受限。另外,GLM-5.1的全链路训练深度绑定华为昇腾910B,供应链集中化风险真实存在,壁仞科技、海光DCU等厂商虽已完成Day-0适配,但“适配完成”与“好用”之间的距离,仍待真实业务验证。Anthropic闭源路线的隐患在于:安全约束与实用能力之间的张力正在显现。 近期Claude Code陷入“思考深度骤降67%”的争议——AMD AI总监Stella Laurenzo基于6852条会话日志公开指控其思考深度骤降,暴露了安全护栏对模型能力的实质性压制。闭源路线的代价是:你为安全交的每一分学费,都会被用户感知到。提价是信号,但盈利拐点仍在远处3月31日,智谱披露上市后首份年报,数字非常矛盾。好的一面:2025年收入7.24亿元,同比增长132%,在国内独立大模型厂商中排名第一。API收入暴增292.6%,Agent收入增长248.8%,MaaS平台年度经常性收入达17亿元,同比飙升60倍。平台化转型方向清晰。难看的一面:净亏损扩大至47.18亿元,毛利率从56.3%下滑至41.0%,研发开支31.80亿元是收入的4.4倍,四年累计亏损约85亿元。以约4100亿港元市值计算,市销率接近500倍——市场几乎完全在为未来定价,而非为当下定价。对比参考:腾讯当前市销率约为5倍。这份年报发布后第二天,CEO张鹏在业绩会上明确将Anthropic列为对标方向,原话是“当模型足够强,API本身就是最好的商业模式”。当天股价大涨31.94%。市场接受了这个新叙事。但“中国版Anthropic”的标签,有一道绕不过去的数字鸿沟需要正视。Anthropic的ARR是智谱全年总收入的约285倍。千余家年消费超百万美元的企业客户,构成了Anthropic营收的基本盘——每一家背后是真实的合同、真实的工程师使用量和真实的续签率。智谱目前的MaaS ARR 17亿元折合约2.3亿美元,与Anthropic的体量不在同一量级,这说明“对标”和“追赶到”之间,还有相当长的路程。更值得关注的是GLM-5.1发布当天的一个定价动作:智谱逆势将API价格上调10%,这是年内第三次提价——2026年一季度Token价格累计上调83%,但调用量反而增长了400%。这组数字是目前最有力的商业信号:价格敏感度不如想象中高,用户对能力溢价有一定接受度。但提价的持续性依赖三个假设,每个都有不确定性:能力溢价是否可持续? 领先优势高度集中在编程方向,对非编程场景并无显著溢价支撑。成本能否压下来? 41%的毛利率意味着盈利拐点仍然很远。增速能否维持? 7.24亿的基数放大后,维持130%以上增速的难度将显著上升。调价后,GLM-5.1在Coding场景缓存命中Token价格已接近Claude Sonnet 4.6水平——注意,是Sonnet,不是Opus。Claude Opus 4.6的API定价仍显著高于智谱。对企业用户而言,同样的价格,面临的是“生态更成熟的Claude”与“性能接近但确定性存疑的GLM-5.1”之间的权衡。从“追赶”进入“攻坚”阶段回到最初的问题:为什么这么多企业争着官宣接入GLM-5.1?部分原因是这个模型真的值得评估,特别是在编程自动化场景;部分原因是MIT开源协议提供了接入的低成本理由;还有一部分,坦率说,是惯例使然。但从企业接入潮这个切口望进去,能看到的比一款模型发布更多:中国大模型行业正在从粗放的“追赶期”进入精细的“攻坚期”。追赶期的标志是,国产模型在关键基准上与全球顶尖水平的差距从“代际差”缩小到“个位数差”——这一步,GLM-5.1在编程方向上已经走到了。攻坚期的难题是,技术领先能否转化成商业壁垒、开源信任能否转化成定价能力、巨额研发投入何时能在利润表上留下正向的印记。这三个问题,智谱没有回答,整个国产大模型行业都还没有回答。GLM-5.1的发布,证明了中国大模型在特定领域已经能和全球最顶尖的产品同台竞技。但“同台竞技”和“赢下市场”之间,仍然是一段没有路标的旅程。(本文首发钛媒体APP,作者 | 硅谷Tech_news,编辑 | 焦燕)更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App