算力受限,DeepSeek-V4凭什么开源?

Wait 5 sec.

文 | 科技不许冷4月24日,国内大模型赛道掉下来一只靴子。DeepSeek-V4预览版正式上线并同步开源,直接把1M(一百万字)超长上下文拉成了官方服务的出厂配置。要是放在一年前,这种级别的长文本处理能力,还是海外头部大厂锁在企业级付费墙里的专属权益。现在,它直接被摊在开源社区的桌面上,成了开发者随取随用的基础设施。对于一直熬夜处理冗长代码库或复杂法务合同的开发者来说,这无疑是一个好消息。但在这种技术下放的背后,官方通稿里保留了一句非常克制的交底:“受限于高端算力,目前DeepSeek-V4-Pro的服务吞吐十分有限”。对于看惯了厂商在发布会上大谈算力储备的人来说,这种直白透着一股罕见的冷峻。大模型打到下半场,谁手里有多少高端硬件筹码,业内心里都有数。与其维持参数层面的繁荣,不如将产业现状亮明。DeepSeek这次的动作,其实是放弃了纯粹跑分比拼的执念,在核心算法突破、国内尚待完善的异构算力生态,以及企业真实的商业环境之间,找到了一套兼顾技术演进与硬件现状的折衷方案。中国AI产业正在脱去早期盲目烧钱的外衣,步入一个极其现实的“算力账本”时代。Pro版算力账怎么平?具体来看那个吞吐被明确限流的V4-Pro。作为体系内的旗舰,V4-Pro拥有高达1.6T的总参数量,但在推理时仅需激活49B参数。这种极致的稀疏化设计,并非一个仅供展示的橱窗模型,在真实产线的严苛检验下,它的技术底座具备极强的防御力。能否胜任复杂代码与逻辑推演,是检验大模型能否真正进入核心生产环节的试金石。在Agentic Coding(智能体代码)评测环境里,V4-Pro的实操表现稳稳站在了当前开源模型的第一梯队。深度求索早已将其接入内部的代码流水线中,让其成为一线工程师重度依赖的生产力工具。研发人员给出的反馈显示,其代码生成和纠错体验优于Sonnet 4.5,非深度思考场景下已接近Opus 4.6,不过与Opus 4.6的思考模式仍有差距。这种实战表现的背后,是研究团队对算法纵深的极致挖掘。在考验预训练数据清洗质量与知识密度的世界知识测评中,V4-Pro领先现有的大部分开源模型,目前仅略逊于顶尖闭源模型Gemini-Pro-3.1。至于数学、STEM(科学、技术、工程、数学)以及竞赛型代码测评,它拿到了与世界顶级闭源大厂同台竞技的资格。获取这种战力,靠的显然不是单纯依赖算力卡堆叠。国内团队心里清楚,真要拼高端显卡储备并不现实。V4-Pro能在有限显存下处理1M的超大上下文,底层支撑是研发团队对注意力机制进行了深度重构。他们实现了一种全新的注意力压缩方案,在token维度进行高强度压缩,并搭配其标志性的DSA稀疏注意力技术(DeepSeek Sparse Attention)。这一套原创技术路线,加上首次引入的KV Cache滑窗和压缩算法,有效控制了长序列处理带来的计算开销和内存占用。为了让开发者真能在业务中调用其能力,研发团队专门给Claude Code、OpenClaw等主流Agent工具做了底层适配。技术文档中甚至明示,开发者在处理复杂任务时可直接开启思考模式,将reasoning_effort参数设为max。这种在有限计算资源下进行的系统级工程优化,恰恰向行业证明了,即便高端算力受限,本土团队依然能靠原生架构设计拓宽模型的性能边界。13B激活量卡住了谁?那些盯着Pro版吞吐瓶颈的人,往往忽视了深度求索隐藏在背后的商业支点,Flash版。业内有声音认为这不过是算力短缺下的妥协产物,这种看法显然低估了管理团队的长期考量。这是一次经过严密成本精算后,对下沉生态发起的务实卡位。据公开的适配代码信息披露,Flash版的总参数量维持在庞大的284B级别,但它的激活参数量,被精确地卡在了13B。13B,在这个同行试图将参数推向万亿规模的语境下,显得并不引人瞩目。但这恰恰体现了混合专家(MoE)架构在商业落地中的经济学逻辑:总参数决定了模型知识的广度,而激活参数直接决定了每次调用接口时,服务器需要支出的电费成本和内存带宽。将激活量压制在13B,直接把大模型从造价昂贵的顶级智算中心里剥离了出来。它对单卡显存和算力峰值的需求非常克制。实测结果表明,Flash版在应对海量、高频的简单日常任务时,响应速度和准确率保持了稳定水准,底层通用推理能力并未出现明显滑坡。对于那些每天需要处理成千上万次API调用的中小开发者和长尾企业来说,这才是真正用得起、跑得动的平价生产力工具。更深层的产业逻辑在于,目前国内主流的异构算力芯片,在单卡绝对性能上仍在追赶期。承载全量激活的计算系统极易触碰内存墙,导致运行效率低下;但面对激活量仅为13B的Flash版,这些芯片却能在中低功耗下保持顺畅运转。DeepSeek这一步,盘活了国内大量闲置的中低端算力资源,为急需落地场景的国产芯片提供了一个契合度极高的试炼场。这种向下包容的基础设施建设逻辑,远比单纯在各类测试榜单上刷个排名更符合当下的商业现实。国产芯片接的住吗?此次发布引发行业广泛讨论的,是其打出的全栈国产落地标签。过去很长一段时间,算法公司和国产芯片厂商之间存在一定的错位:模型厂商担忧硬件生态不完善会拖累研发进度,芯片厂商则缺乏最前沿的大模型进行深度调优。这一次,僵局被实质性打破了。华为计算迅速发声,确认昇腾超节点全系列产品全面支持新模型。从技术细节看,昇腾底层芯片依靠融合kernel和多流并行技术,有效降低了系统的计算开销,从而稳住了长文本场景下的推理性能。寒武纪也迅速完成了Day 0适配并开源了底层代码,海光DCU同步宣告打通闭环。但我们需要拨开生态繁荣的表象,审视机房里软硬缝合时面临的真实阻力。以昇腾950系列芯片为例,据业内消息,该芯片具备112GB自研HBM、1.4TB/秒带宽,单卡功耗达600瓦。在特定推理精度(如FP4)下,其单卡算力已展现出极强的数据表现,达到英伟达H20的2.87倍。但在要求更高的FP16或FP32通用训练精度区间,国产硬件与英伟达的性能鸿沟依然存在。此外,所谓的“Day 0适配”,距离企业级业务的无损运转,仍需跨越供应链不透明带来的隐形成本。超节点硬件的高速连接标准极其封闭,核心零部件的流向形同一个信息黑盒。这种采购端的壁垒,无疑让算力系统的规模化部署与维护变得更加复杂。同时,目前这套系统高度依赖国内极少数大型机构的集采大单。海外市场订单的匮乏,意味着这场算力突围战只能在内循环里打转。这种单一的商业闭环,让整套软硬协同系统的运转效率,亟需经历更多元商业环境的淬炼。高端算力产能爬坡吃紧,直接导致DeepSeek在通稿中坦承,Pro版想要实现大幅降价,还需等待下半年超节点的批量上市。大模型与国产芯片确实完成了初步的物理咬合,但在技术落差和供应链约束下,这种带伤狂奔的姿态,恰恰是国产算力生态最真实的生存切面。人走了技术是否还能转?视野退回到真实的商业竞争中,DeepSeek-V4的问世是一次极其精准的战略防守。过去大半年,这家公司的处境始终处于高压状态。C端赛道演变为红海,头部厂商动用海量资金进行密集投放。QuestMobile的数据呈现了清晰的竞争态势:截至2026年3月,豆包月活达到3.45亿,千问为1.66亿,DeepSeek以1.27亿固守自身的基本盘。外部流量竞争激烈,内部的技术班底也面临流动考验。行业内的挖角竞争白热化,多条业务线的骨干人员接连流出。据公开履历与行业信息,第一代大语言模型核心作者已确认加盟腾讯,V3核心贡献者去往小米,R1核心研究员入职字节跳动,多模态方向的核心力量也确认了新去向。据业内传闻,OCR方向核心作者魏浩然也已离职。核心研发成员的变动,必然会引发外界对其研发后劲的严格审视:这家依靠技术立足的公司,底层架构的创新能力是否会受到影响?在这个节点,V4预览版的发布成为了最直接的回应。它向市场证实,公司已经建立起一套具备抗风险能力的系统化研发流水线。即便面临人员架构的调整,其技术演进的逻辑依然能够保持精确运转。这种建立在工程体系基础上的组织韧性,迅速在资本市场获得了正向反馈。近期,DeepSeek被曝以不低于100亿美元的估值寻求融资,计划募集资金以补充储备。据行业媒体援引接近交易人士的消息,市场传闻有头部互联网巨头预计注资,或将推高本轮估值。如果这笔交易最终敲定,将重写国内大模型赛道的估值记录,超越月之暗面此前的表现。在融资谈判的关键期,端出百万上下文和全栈国产适配的实质性成果,是管理层稳住战略大盘、回应外部疑虑的理性落子。写在最后在概念更迭频繁的科技商业语境中,愿意专注于底层基础设施搭建的团队始终稀缺。DeepSeek-V4的发布,为大模型下半场的竞争确立了一个务实而冷峻的基调。面对算力瓶颈,他们没有选择修饰,而是将国产高端硬件的真实供需现状抛给了市场;面对下沉落地需求,他们利用13B激活量的Flash版,为处于追赶期的国产算力芯片提供了生存空间;面对外部的流量围堵和人才竞争,他们用具体的长文本处理能力做出了行业维度的回应。官方在发布当天引用的《荀子》原文极具深意:“不诱于誉,不恐于诽,率道而行,端然正己。”模型可以开源,但算力不会免费。DeepSeek这次交出的,不是一款更强的模型,而是一种在算力成为约束之后,能力如何被重新分配的解法。在算力仍然不完美的现实里,这或许才是更接近产业本质的进化方向。更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App