DeepSeek'ten kullanıcı başına yanıt hızını yüzde 85'e kadar artırabilen yeni çıkarım optimizasyonu: DSpark

Wait 5 sec.

Çin merkezli yapay zeka girişimi DeepSeek, DeepSeek-V4 modellerinde yanıt üretim hızını artırmaya odaklanan yeni çıkarım optimizasyonu DSpark’ı duyurdu. Şirketin paylaştığı bilgilere göre DSpark, özellikle yoğun kullanım senaryolarında büyük dil modellerinin daha hızlı yanıt vermesini hedefleyen bir “speculative decoding” yani öngörülü çözümleme çerçevesi olarak konumlanıyor. Tech in Asia’nın aktardığına göre teknoloji, kullanıcı başına yanıt hızını yüzde 85’e kadar artırabiliyor. DSpark, yeni bir model mimarisi sunmak yerine DeepSeek-V4-Pro üzerine eklenen bir çıkarım modülüyle çalışıyor. Bu anlamda DeepSeek'in, modelin temel yeteneklerini değiştirmek yerine aynı modelden daha hızlı yanıt alınmasını sağlayan mühendislik odaklı bir iyileştirme yapıtığını söyleyebiliriz. DSpark'ın DeepSeek-V4’ün Flash ve Pro sürümlerinde canlı trafik üzerinde kullanılmaya başlandığı belirtiliyor. Sistemin temelinde hafif bir “draft model” yer alıyor. Bu model, üretilecek yanıt için aday token’ları önceden tahmin ediyor; ardından ana model bu adayları toplu şekilde doğruluyor. Böylece yanıt üretimi tamamen token token ilerlemek yerine daha paralel bir yapıya kavuşuyor. DSpark’ın farkı ise bu yapıyı yarı-otoregresif üretim ve güvene dayalı doğrulama mekanizmasıyla geliştirmesi. Sistem, hangi aday token’ların doğrulanmaya değer olduğunu hesaplayarak GPU kaynaklarının boşa harcanmasını azaltıyor.DeepSeek’in testlerinde DSpark, önceki nesil MTP-1 kıyaslamasına göre Flash modelde kullanıcı tarafındaki üretim hızını yüzde 60 ila yüzde 85, Pro modelde ise yüzde 57 ila yüzde 78 artırdı. Aynı testlerde DSpark’ın, Eagle3 ve DFlash gibi mevcut spekülatif çözümleme yaklaşımlarına kıyasla daha uzun kabul edilen token dizileri ürettiği de belirtiliyor.DeepSeek ayrıca DSpark ile birlikte DeepSpec adlı açık kaynaklı araç setini de kullanıma sundu. GitHub’da MIT lisansıyla yayımlanan DeepSpec; veri hazırlama, draft model eğitimi ve değerlendirme süreçlerini kapsayan tam yığın bir kod tabanı olarak öne çıkıyor. Proje şu anda DSpark’ın yanı sıra DFlash ve Eagle3 algoritmalarını destekliyor; Qwen3 ve Gemma model aileleri üzerinde çalışabiliyor.