对Anthropic贴脸开大：智谱GLM-5.2凭什么杀入世界编程三强？

Wait 5 sec.

文 | 超前实验室，作者｜青苹吹果，编辑｜无心插柳柳橙汁六月的AI圈真是热闹。先是Anthropic突遭美国商务部发函，援引“国家安全”条款，勒令其立即切断Fable 5和Mythos 5面向外国公民的全部访问通道。于是Anthropic干脆直接把这两款模型对全球所有用户关停，谁都别用。上线仅仅72小时，被寄予厚望的“全世界最强模型”，说没就没了。这事儿在X上爆出了上千万的阅读量。很多依赖Fable 5构建产品的开发者一觉醒来，发现自己的工具链直接断掉了。那种感觉就像你正兴致勃勃地干活干到一半，连员工带生产工具全给你没收了，难受得很。而几乎同一时间，智谱突然发布公告，将旗下最强模型GLM-5.2全量开放，并且直言：前沿智能属于所有人！格局，这就叫格局。更有意思的是时间点，Anthropic是5点21分收到的那封信，智谱也选在5点21分开放了GLM-5.2。简直是“贴脸开大”。前沿智能前脚被筑起的封闭围墙，后一秒就被智谱直接砸穿，这波戏剧性简直拉满。而对于智谱的此举，市场也给予了高调回应——就在前几天，智谱在港股的市值盘中突破了1万亿港元，年内涨幅超过1900%，成为了中国首个万亿AI公司！很显然，这是整个市场在用真金白银给中国开源大模型重新定价。国产AI首度跻身编程“御三家”之列如果你平时比较关注AI编程，应该知道过去提到最强Coding模型，大家嘴里的“御三家”通常是Claude、OpenAI和谷歌。但现在不一样了，GLM-5.2上桌了。在汇集全球百万用户盲测的代码能力评估系统Code Arena上，GLM-5.2以1595分排名总榜第二，仅次于暂不可用的Fable 5。换句话说，在所有当前可用的模型中，GLM-5.2是“现役最强”。Artificial Analysis在其智能指数v4.1中把GLM-5.2评定为51分，直接放在了GPT-5.5与Opus 4.8之间。而这是开源模型也第一次真正杀入这个区间。以前是“开源追赶闭源”，现在是“开源和闭源平起平坐”。而在更考验工程能力的FrontierSWE长程编程基准上，GLM-5.2得分74.4，跟Opus 4.8的75.1差距不到1个百分点，同时把GPT-5.5的72.6甩在了身后。专测Agent训练能力的PostTrainBench上也是第二，仅次于Opus 4.8。换句话说，谷歌的Gemini这次确确实实被淘汰出了“御三家”。现在是Claude、OpenAI和智谱“三足鼎立”。更有意思的是国外开发者社区的反馈。X上的一位博主AICodeKing在内测完直接评价：“这个模型品位出色，代码始终非常干净。”还有博主说，体感比Codex还好很多，有一种花20万买国产电车比50万的BBA还好的感觉。哈哈哈哈这比喻，绝了，国产电车YYDS。Mat Velloso更是表示，这是他“第一个达到日常使用标准的开源模型”。前微软总裁亲自盖章，含金量不用多说了吧。所以，那些“国产大模型跟海外差距两三年”的说法，至少在Coding这件事上，可以收一收了。从“答得好”到“干得久”不过话说回来，光看跑分其实有点没意思。这两年AI圈一个很明显的趋势是：单次输出能力的差距正在被抹平，真正拉开模型档次的，是长时间干活能不能靠得住。就像面试时人人都说“我能行”，真到上班时才知道谁在摸鱼。想象一下这个场景：让一个AI智能体去处理一个真实项目，需要数千次调用工具、读写数万行代码，并维持大量中间状态。如果上下文窗口不足，它就得频繁压缩或丢弃早期信息，很多长任务失败并非因为模型不够聪明，而是它忘记了前序内容。这就好比让一个人边干活边扔笔记，干到最后他肯定出岔子。这不就是“金鱼系AI”吗？GLM-5.2这次最大的升级，就是把上下文窗口拉到了真正能用的1M token。这个数字本身可能没什么体感，我翻译一下：你基本可以把整个项目代码库、所有技术文档、需求说明、历史记录一次性全喂进去，它不光吃得下，还记得住。给AI装了个“1TB的大脑内存”，再也不怕它“断片”了。实际效果怎么样？据智谱官方披露，有评测团队让GLM-5.2一次性承接一个完整的全栈应用开发任务。从开发、联调、测试到打包上线，全程自主完成，最终交付了覆盖网页端、移动端与小程序的完整应用。整个任务累计处理超过88万tokens，几乎用满了1M窗口。过去这样体量的工程通常需要一支团队协作数周，而GLM-5.2在一个回合内完整保留了所有项目状态和约束，没有因为上下文不足而在执行中途“失忆”。短上下文模型在执行到后半段时，最初的需求细节和模块依赖关系早已被压缩丢弃，它能输出零散的代码片段，但整合不出可交付的完整产品。就像拼图拼到一半，把图纸扔了，最后拼出个四不像。这就是长上下文真正的意义，不是参数表上一个更大的数字，而是让AI Coding从“会写一段代码”进化到“能做一段工程”。简直就是质的飞跃！不过也得说实话，1M上下文不是万能的。如果你只是改一个小函数、补一个简单脚本，把整个代码库塞进去反而是浪费，模型反而更容易过度设计。杀鸡用牛刀，牛刀表示很委屈。真正适合的场景是整库理解、跨文件追Bug、长期重构、复杂功能新增这类活。所以智谱这次也很实在，在模型文档里专门讲了什么时候别用1M。简言之，大活用大窗，小活别硬塞。这一点还挺拉好感的。“越大”不等于越好看到这里，大家心里肯定都有疑问了：GLM-5.2参数规模744B，采用MoE架构，活跃参数约40B。而Opus 4.8和GPT-5.5都是保守估计在1-2万亿参数区间的闭源模型。一个只有对手几分之一规模的模型，凭什么能追到这么近？因为更大的模型，不一定更聪明。这就好比健身房里的肌肉男，不一定跑得过精瘦的马拉松选手。Artificial Analysis的AA-Omniscience基准测试了一个很有意思的指标叫做幻觉率，也就是模型在面对自己不确定的问题时，是诚实地说“不知道”，还是自信地瞎编一个答案。结果令人震惊，GPT-5.5的幻觉率是86%，Claude Opus 4.8是36%，Fable 5是48%，而GLM-5.2只有28%。换句话说，那些万亿参数的巨兽，在面对知识边界之外的问题时，有超过八成的时间在自信地胡说八道。参数大，胆子更大，啥都敢编。有人测试过，让DeepSeek V4 Pro和GLM-5.2分别设计一个Python的自定义异步事件循环策略，其中包含一个技术上的不可能任务，在单线程中执行多路复用I/O而从不暂停或利用系统轮询。DeepSeek V4 Pro花了3分52秒、7700个推理token，生成了一份结构精美但完全错误的代码。而GLM-5.2只用了12秒、799个推理token，就直接指出这个需求在技术上是不可行的。这好比装修时问师傅“能不能在不改动承重墙的前提下把客厅扩大一倍”。小模型说“这做不到”；大模型却说“没问题”，然后画出一份看似完美却根本没法施工的设计图。小模型是真·良心师傅，大模型是纯·忽悠大师。由此可见，更大的参数量、更长的推理时间，并不必然带来更好的判断力。在某些场景下，它们反而让模型更不愿意承认自己不知道。越大的模型，偶像包袱越重，打死不认错。所以不要被参数大小和榜单分数迷惑，还得看干活踏不踏实。找AI和对象一样，靠谱比花哨重要。成本是一个被低估的变量现在性能追上了，成本呢？GLM-5.2的输入token价格约1.40美元/百万token，输出约4.40美元/百万token。Opus 4.8的输入是5美元/百万token，输出是25美元/百万token，快速模式还要翻倍到10美元和50美元。据此计算，GLM-5.2比Opus 4.8便宜约72%至82%。但更值得关注的不是单价，而是另一个趋势。摩根大通在研报中指出，相比GLM-5.1，GLM-5.2实际是涨价，因为性能提升主要源自强化学习和后训练优化，而非大规模增加参数量，成本基础保持稳定，定价却提高了。基础对话、简单摘要、标准代码辅助这些已经商品化的能力，价格会越来越低；但能解锁新工作流、提升任务完成率的前沿能力，客户愿意为“完成任务”付费，而不是为“token”付费。简单说：加量又加价，但用户还抢着买，这就是“物超所值”的魅力。毕竟咱们用户不是傻子，知道什么模型能帮他们真正搞定工作。写在最后回到开头那两件事。Fable 5被下架，GLM-5.2被开源。一个在筑墙，一个在铺路。这并不是某个公司的胜利，也不是某个国家的胜利。这是两种路线的碰撞：一个是“我的智能你别碰”，一个是“大家的智能随便用”。而智谱港股万亿市值的加冕，正是市场用真金白银为这条开放路线投下的信任票，宣告中国AI终于迎来了自己的“英伟达时刻”。GLM-5.2当然不完美。它在最高难度的SWE-Marathon基准上得分13.0，而Opus 4.8是26.0。它没有多模态能力，前端UI的审美和Claude还有差距。它的推理速度受限于算力基础设施，比Opus 4.8慢不少。但这些差距正在肉眼可见地缩小。年初的时候，马斯克在X上回复网友，预测中国模型可能在2027年一季度达到Fable级别，智谱CEO唐杰直接正面硬刚：“不需要那么久。”更重要的是，GLM-5.2以MIT协议完全开源，模型权重可以自由下载、部署、商用。上线首日就完成了与华为昇腾、平头哥、摩尔线程、寒武纪等8大国产算力平台的全适配。这意味着什么？意味着任何开发者、任何团队、任何公司，都可以在自己的基础设施上跑这个模型，不用担心哪天收到一封信说“你不能用了”。告别“卡脖子”，从此挺直腰杆写代码！智谱在发布公告的结尾写了两句话：“A step closer to frontier intelligence for everyone. The future of AI is open, and it is for the people.”向前沿智能再近一步，为每一个人。AI的未来是开放的，它属于所有人。放在2026年6月这个时间节点上，这两句话分量尤重。我们正在见证AI编程的权力转移：从少数闭源巨头的手中，转移到每一个开发者的终端里。这场转移不会一蹴而就，但方向已清晰无比。智能，不该是少数人的特权。而这一次，中国开源模型不仅坐在了牌桌上，还亲手洗了牌。 更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App