算力受限，DeepSeek-V4凭什么开源？

Wait 5 sec.

文 | 科技不许冷4月24日，国内大模型赛道掉下来一只靴子。DeepSeek-V4预览版正式上线并同步开源，直接把1M（一百万字）超长上下文拉成了官方服务的出厂配置。要是放在一年前，这种级别的长文本处理能力，还是海外头部大厂锁在企业级付费墙里的专属权益。现在，它直接被摊在开源社区的桌面上，成了开发者随取随用的基础设施。对于一直熬夜处理冗长代码库或复杂法务合同的开发者来说，这无疑是一个好消息。但在这种技术下放的背后，官方通稿里保留了一句非常克制的交底：“受限于高端算力，目前DeepSeek-V4-Pro的服务吞吐十分有限”。对于看惯了厂商在发布会上大谈算力储备的人来说，这种直白透着一股罕见的冷峻。大模型打到下半场，谁手里有多少高端硬件筹码，业内心里都有数。与其维持参数层面的繁荣，不如将产业现状亮明。DeepSeek这次的动作，其实是放弃了纯粹跑分比拼的执念，在核心算法突破、国内尚待完善的异构算力生态，以及企业真实的商业环境之间，找到了一套兼顾技术演进与硬件现状的折衷方案。中国AI产业正在脱去早期盲目烧钱的外衣，步入一个极其现实的“算力账本”时代。Pro版算力账怎么平？具体来看那个吞吐被明确限流的V4-Pro。作为体系内的旗舰，V4-Pro拥有高达1.6T的总参数量，但在推理时仅需激活49B参数。这种极致的稀疏化设计，并非一个仅供展示的橱窗模型，在真实产线的严苛检验下，它的技术底座具备极强的防御力。能否胜任复杂代码与逻辑推演，是检验大模型能否真正进入核心生产环节的试金石。在Agentic Coding（智能体代码）评测环境里，V4-Pro的实操表现稳稳站在了当前开源模型的第一梯队。深度求索早已将其接入内部的代码流水线中，让其成为一线工程师重度依赖的生产力工具。研发人员给出的反馈显示，其代码生成和纠错体验优于Sonnet 4.5，非深度思考场景下已接近Opus 4.6，不过与Opus 4.6的思考模式仍有差距。这种实战表现的背后，是研究团队对算法纵深的极致挖掘。在考验预训练数据清洗质量与知识密度的世界知识测评中，V4-Pro领先现有的大部分开源模型，目前仅略逊于顶尖闭源模型Gemini-Pro-3.1。至于数学、STEM（科学、技术、工程、数学）以及竞赛型代码测评，它拿到了与世界顶级闭源大厂同台竞技的资格。获取这种战力，靠的显然不是单纯依赖算力卡堆叠。国内团队心里清楚，真要拼高端显卡储备并不现实。V4-Pro能在有限显存下处理1M的超大上下文，底层支撑是研发团队对注意力机制进行了深度重构。他们实现了一种全新的注意力压缩方案，在token维度进行高强度压缩，并搭配其标志性的DSA稀疏注意力技术（DeepSeek Sparse Attention）。这一套原创技术路线，加上首次引入的KV Cache滑窗和压缩算法，有效控制了长序列处理带来的计算开销和内存占用。为了让开发者真能在业务中调用其能力，研发团队专门给Claude Code、OpenClaw等主流Agent工具做了底层适配。技术文档中甚至明示，开发者在处理复杂任务时可直接开启思考模式，将reasoning_effort参数设为max。这种在有限计算资源下进行的系统级工程优化，恰恰向行业证明了，即便高端算力受限，本土团队依然能靠原生架构设计拓宽模型的性能边界。13B激活量卡住了谁？那些盯着Pro版吞吐瓶颈的人，往往忽视了深度求索隐藏在背后的商业支点，Flash版。业内有声音认为这不过是算力短缺下的妥协产物，这种看法显然低估了管理团队的长期考量。这是一次经过严密成本精算后，对下沉生态发起的务实卡位。据公开的适配代码信息披露，Flash版的总参数量维持在庞大的284B级别，但它的激活参数量，被精确地卡在了13B。13B，在这个同行试图将参数推向万亿规模的语境下，显得并不引人瞩目。但这恰恰体现了混合专家（MoE）架构在商业落地中的经济学逻辑：总参数决定了模型知识的广度，而激活参数直接决定了每次调用接口时，服务器需要支出的电费成本和内存带宽。将激活量压制在13B，直接把大模型从造价昂贵的顶级智算中心里剥离了出来。它对单卡显存和算力峰值的需求非常克制。实测结果表明，Flash版在应对海量、高频的简单日常任务时，响应速度和准确率保持了稳定水准，底层通用推理能力并未出现明显滑坡。对于那些每天需要处理成千上万次API调用的中小开发者和长尾企业来说，这才是真正用得起、跑得动的平价生产力工具。更深层的产业逻辑在于，目前国内主流的异构算力芯片，在单卡绝对性能上仍在追赶期。承载全量激活的计算系统极易触碰内存墙，导致运行效率低下；但面对激活量仅为13B的Flash版，这些芯片却能在中低功耗下保持顺畅运转。DeepSeek这一步，盘活了国内大量闲置的中低端算力资源，为急需落地场景的国产芯片提供了一个契合度极高的试炼场。这种向下包容的基础设施建设逻辑，远比单纯在各类测试榜单上刷个排名更符合当下的商业现实。国产芯片接的住吗？此次发布引发行业广泛讨论的，是其打出的全栈国产落地标签。过去很长一段时间，算法公司和国产芯片厂商之间存在一定的错位：模型厂商担忧硬件生态不完善会拖累研发进度，芯片厂商则缺乏最前沿的大模型进行深度调优。这一次，僵局被实质性打破了。华为计算迅速发声，确认昇腾超节点全系列产品全面支持新模型。从技术细节看，昇腾底层芯片依靠融合kernel和多流并行技术，有效降低了系统的计算开销，从而稳住了长文本场景下的推理性能。寒武纪也迅速完成了Day 0适配并开源了底层代码，海光DCU同步宣告打通闭环。但我们需要拨开生态繁荣的表象，审视机房里软硬缝合时面临的真实阻力。以昇腾950系列芯片为例，据业内消息，该芯片具备112GB自研HBM、1.4TB/秒带宽，单卡功耗达600瓦。在特定推理精度（如FP4）下，其单卡算力已展现出极强的数据表现，达到英伟达H20的2.87倍。但在要求更高的FP16或FP32通用训练精度区间，国产硬件与英伟达的性能鸿沟依然存在。此外，所谓的“Day 0适配”，距离企业级业务的无损运转，仍需跨越供应链不透明带来的隐形成本。超节点硬件的高速连接标准极其封闭，核心零部件的流向形同一个信息黑盒。这种采购端的壁垒，无疑让算力系统的规模化部署与维护变得更加复杂。同时，目前这套系统高度依赖国内极少数大型机构的集采大单。海外市场订单的匮乏，意味着这场算力突围战只能在内循环里打转。这种单一的商业闭环，让整套软硬协同系统的运转效率，亟需经历更多元商业环境的淬炼。高端算力产能爬坡吃紧，直接导致DeepSeek在通稿中坦承，Pro版想要实现大幅降价，还需等待下半年超节点的批量上市。大模型与国产芯片确实完成了初步的物理咬合，但在技术落差和供应链约束下，这种带伤狂奔的姿态，恰恰是国产算力生态最真实的生存切面。人走了技术是否还能转？视野退回到真实的商业竞争中，DeepSeek-V4的问世是一次极其精准的战略防守。过去大半年，这家公司的处境始终处于高压状态。C端赛道演变为红海，头部厂商动用海量资金进行密集投放。QuestMobile的数据呈现了清晰的竞争态势：截至2026年3月，豆包月活达到3.45亿，千问为1.66亿，DeepSeek以1.27亿固守自身的基本盘。外部流量竞争激烈，内部的技术班底也面临流动考验。行业内的挖角竞争白热化，多条业务线的骨干人员接连流出。据公开履历与行业信息，第一代大语言模型核心作者已确认加盟腾讯，V3核心贡献者去往小米，R1核心研究员入职字节跳动，多模态方向的核心力量也确认了新去向。据业内传闻，OCR方向核心作者魏浩然也已离职。核心研发成员的变动，必然会引发外界对其研发后劲的严格审视：这家依靠技术立足的公司，底层架构的创新能力是否会受到影响？在这个节点，V4预览版的发布成为了最直接的回应。它向市场证实，公司已经建立起一套具备抗风险能力的系统化研发流水线。即便面临人员架构的调整，其技术演进的逻辑依然能够保持精确运转。这种建立在工程体系基础上的组织韧性，迅速在资本市场获得了正向反馈。近期，DeepSeek被曝以不低于100亿美元的估值寻求融资，计划募集资金以补充储备。据行业媒体援引接近交易人士的消息，市场传闻有头部互联网巨头预计注资，或将推高本轮估值。如果这笔交易最终敲定，将重写国内大模型赛道的估值记录，超越月之暗面此前的表现。在融资谈判的关键期，端出百万上下文和全栈国产适配的实质性成果，是管理层稳住战略大盘、回应外部疑虑的理性落子。写在最后在概念更迭频繁的科技商业语境中，愿意专注于底层基础设施搭建的团队始终稀缺。DeepSeek-V4的发布，为大模型下半场的竞争确立了一个务实而冷峻的基调。面对算力瓶颈，他们没有选择修饰，而是将国产高端硬件的真实供需现状抛给了市场；面对下沉落地需求，他们利用13B激活量的Flash版，为处于追赶期的国产算力芯片提供了生存空间；面对外部的流量围堵和人才竞争，他们用具体的长文本处理能力做出了行业维度的回应。官方在发布当天引用的《荀子》原文极具深意：“不诱于誉，不恐于诽，率道而行，端然正己。”模型可以开源，但算力不会免费。DeepSeek这次交出的，不是一款更强的模型，而是一种在算力成为约束之后，能力如何被重新分配的解法。在算力仍然不完美的现实里，这或许才是更接近产业本质的进化方向。更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App