【摘要】刚刚过去的周末,DeepSeek 发布了一篇关于推理加速的新论文:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》,内容聚焦在大模型推理服务中的一个具体问题:在真实高并发场景 阅读全文