随着 AI 技术向更智能、更高效的方向演进,一款新一代大模型凭借混合推理架构、强大 Agent 能力及对国产芯片的优化,在性能、成本控制与应用适配等维度实现突破,不仅刷新了行业基准测试成绩,也为推动 AI 向实用化、国产化方向发展提供了新可能。2025年8月21日,中国AI公司深度求索(DeepSeek)正式推出新一代大模型DeepSeek V3.1,它以混合推理架构和强大的Agent能力,标志着人工智能正式迈入“Agent时代”的新阶段。8月21日,中国人工智能领域迎来一个重要时刻。深度求索(DeepSeek)正式发布了其新一代大模型——DeepSeek V3.1。此次发布没有盛大的发布会,而是通过官方渠道静静宣布,但它在AI社区和开发者中引发了巨大反响。作为DeepSeek V3的升级版本,V3.1引入了革命性的混合推理架构,首次在生产就绪的模型中实现了思考模式与非思考模式的无缝切换。这个拥有6850亿参数的巨型模型(685B参数)。不仅在多项基准测试中表现出色,更在代码生成、软件工程和复杂问题解决方面展现出了超越前代和竞争对手的性能。同时,它还对国产芯片进行了专门优化,为中国AI生态的发展提供了新动力。01 模型架构:混合推理的革命性突破DeepSeek V3.1最显著的创新是其混合推理架构(Hybrid Reasoning Architecture),它成功将思考模式与非思考模式整合到单一模型中。这种设计允许用户根据任务复杂度,自由切换模型的“深度思考”状态。在官方App和网页端,用户只需点击“深度思考”按钮,就能激活模型的增强推理能力。通过API调用时,开发者可以选择使用“deepseek-chat”(非思考模式)或“deepseek-reasoner”(思考模式)不同端点,满足不同场景的需求。模型的技术规格令人印象深刻。DeepSeek V3.1拥有6850亿参数(685B),但通过混合专家(Mixture-of-Experts,MoE)架构,每个令牌仅激活370亿参数(约5.5%的激活率),实现了效率与性能的平衡。模型的上下文窗口扩展至128K个令牌,是前代64k的两倍,使其能够处理更长的文档和维持更复杂的多轮对话。02 性能表现:领先行业的基准测试结果在多项基准测试中,DeepSeek V3.1展现出了卓越的性能。根据评测数据,V3.1的表现如下:在Aider编程测试中达到了71.6%的通过率,超过了Claude Opus的70.6%。在软件工程能力方面,V3.1取得了显著进步。它在SWE-bench Verified测试中达到了66.0%的成功率,相比前代V3-0324的45.4%有了大幅提升。在Terminal-Bench测试中,V3.1得分达到31.3%,比前代提高了135%。数学和科学推理方面,V3.1同样表现优异。在AIME 2024测试中,思考模式达到了93.1%的准确率,在GPQA-Diamond测试中取得了80.1%的准确率。多任务语言理解(MMLU)测试中,V3.1获得了88.5%的得分,与国际顶尖模型媲美。03 效率提升:思维链压缩与成本优化DeepSeek V3.1在效率优化方面取得了重大突破。通过思维链压缩训练,V3.1在思考模式下的输出令牌数减少了20%-50%,同时保持了与前代R1-0528相当的性能表现。这种效率提升直接转化为显著的成本优势。完成一次完整的编程任务测试,V3.1的成本仅需约1.01美元,相比Claude Opus的约68美元,便宜了68倍。以下是DeepSeek V3.1与竞争对手的成本效益对比:表:DeepSeek V3.1与主要竞争对手的成本效益比较04 Agent能力:工具使用与智能体任务的飞跃DeepSeek V3.1被其开发者称为迈向“Agent时代”的第一步,这主要体现在其增强的工具使用和智能体任务能力上。通过后训练优化,V3.1在编程智能体任务中表现突出。在代码修复(SWE)和命令行终端环境下的复杂任务(Terminal-Bench)测试中,V3.1相比之前的DeepSeek系列模型有明显提高。搜索智能体能力方面,V3.1同样取得了重大进展。在需要多步推理的复杂搜索测试(browsecomp)中,V3.1取得了30.0%的得分,比R1-0528的8.9%提高了237%。在多学科专家级难题测试(HLE)中,V3.1在使用Python和搜索工具的情况下达到了29.8%的准确率,比前代提高了20%。05 国产芯片优化:推动中国AI生态发展DeepSeek V3.1的一个重要意义是其对国产芯片的专门优化。模型支持UE8M0 FP8精度格式,这是为“即将发布的下一代国产芯片”量身定制的。这种优化使得V3.1能够在国产芯片上高效运行,降低了对国外硬件的依赖。据报道,DeepSeek R2(V3.1的前身)已经使用华为昇腾910B芯片替代了NVIDIA H100 GPU。这一转换使得输出成本从每百万令牌2.19美元降低到0.27美元,降幅接近90%。DeepSeek V3.1的成功训练表明,中国AI产业能够通过架构创新突破先进制程的限制。即使在受限的H800芯片上,DeepSeek仍然训练出了高性能模型,证明了技术路径可以多元化发展。06 开源策略与API升级:开发者生态建设DeepSeek继续坚持其开源策略,V3.1的基座模型已经在Hugging Face和ModelScope平台开源。这次的基座模型在V3基础上额外训练了8400亿令牌的数据。API服务也进行了重要升级。现在支持128K上下文窗口和严格的函数调用(Strict Mode Function Calling),确保输出严格符合Schema定义。此外,DeepSeek V3.1还增加对Anthropic API格式的支持,使开发者能够轻松将V3.1的能力接入Claude Code等框架。从2025年9月6日起,DeepSeek将执行新的API定价策略。输入价格调整为0.5元/百万令牌(缓存命中)和4元/百万令牌(缓存未命中),输出价格为12元/百万令牌。同时,夜间时段优惠将被取消。07 应用场景:从代码生成到复杂问题解决DeepSeek V3.1在多个应用场景中展现出色能力。在代码生成与软件工程方面,V3.1表现尤为突出。在LiveCodeBench测试中,V3.1达到了74.8%的准确率,在Codeforces编程竞赛中获得了2091的评分,在Aider-Polyglot测试中取得了76.3%的得分,均领先于前代模型。在前端开发领域,V3.1也展示了显著进步。在天气卡片案例测试中,V3.1生成的动画效果美观,超出预期。在流程图与复杂案例测试中,V3.1能够使用Mermaid流程图展示用户、Agent、LLM和MCP Server之间的交互,虽然细节有所欠缺,但基础作品直出且具有不错的美观度。对于复杂推理任务,V3.1的思考模式表现出了优异能力。在需要多步推理的数学问题和高难度科学问题上,V3.1能够提供准确的解决方案,使其成为研究和教育领域的有力工具。DeepSeek V3.1的发布不仅仅是一次模型升级,更是AI发展方向的一次重要转向。它标志着人工智能正在从单纯的对话和内容生成,向能够真正理解复杂需求、使用工具、解决实际问题的Agent时代迈进。随着V3.1对国产芯片的深度优化以及其在多项任务上的卓越表现,中国在全球AI竞争格局中的地位正在提升。虽然在美国芯片管制的背景下,中国AI发展面临挑战,但DeepSeek V3.1的成功表明,通过架构创新和生态协同,同样能够取得突破性进展。一句话总结模型参数更大更灵活,性价比更高,更好地支持AI,Agent还能使用国产芯片 —— 对于AI应用来说将会是一个性价比更好的选择,也有利于AI的进一步普及。本文由人人都是产品经理作者【产品海豚湾】,微信公众号:【产品海豚湾】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。题图来自Unsplash,基于 CC0 协议。