Google'dan bellek performansını 8 kat artıran yapay zeka sıkıştırma algoritması: TurboQuant

Wait 5 sec.

Google, yeni yapay zeka bellek sıkıştırma algoritması TurboQuant’ı duyurdu. Google Research, bu teknolojiyi performansı etkilemeden yapay zekanın çalışma belleğini küçültmenin yeni bir yolu olarak tanımlıyor. Büyük Dil Modelleri (LLM'ler), devasa belgeleri ve karmaşık konuşmaları işlemek için bağlam pencerelerini genişlettikçe, Anahtar-Değer (KV) önbellek darboğazı ile karşı karşıya kalıyor. Modelin işlediği her kelime, yüksek hızlı bellekte yüksek boyutlu bir vektör olarak depolanmak durumunda. Uzun süreli görevlerde, bu dijital kopya kağıdı hızla büyürken, çıkarım sırasında kullanılan GPU, VRAM sistemini tüketiyor. Bu nedenle zaman içinde model performansının hızla düştüğü görülüyor. Yalnızca yazılımdan oluşan TurboQuant algoritma paketi ise aşırı KV önbellek sıkıştırması için matematiksel bir şablon sunuyor. TurboQuant, belirli bir modelin kullandığı KV bellek miktarını ortalama olarak 6 kat azaltıyor ve dikkat logitlerini (attention logits) hesaplamada 8 kat performans artışı sağlıyor. Böyle bakıldığında bunu modellerinde uygulayan işletmelerin maliyetlerini yüzde 50'den fazla azaltabileceğini söyleyebiliriz. Google Research'ün duyurusu 7,7 milyondan fazla görüntüleme alırken, yayınlanmasından sonraki 24 saat içinde, topluluk üyeleri algoritmayı Apple Silicon için MLX ve llama.cpp gibi popüler yerel yapay zeka kütüphanelerine taşımaya başladı.Teknik analist Prince Canuma, X'te paylaştığı bir gönderide Qwen3.5-35B modelini test etmek için MLX'te TurboQuant'ı uyguladığını açıkladı. Canuma, 8,5K ile 64K token arasında değişen bağlam uzunluklarında, her niceleme düzeyinde yüzde 100 tam eşleşme olduğunu açıkladı. Canuma'nın belirttiğine göre; 2,5 bitlik TurboQuant, doğruluk kaybı olmadan KV önbelleğini neredeyse 5 kat azalttı. Google araştırmacıları, 2024'te başlayan ve yıllarca süren bir araştırma sürecinin sonucunda TurboQuant'ı piyasaya sürdü. Google araştırmacılarının 2025'in başlarında PolarQuant ve Quantized Johnson-Lindenstrauss (QJL) gibi temel matematiksel framework'leri ele alan makaleler ile karşımıza çıktığını gördük. TurboQuant, halüsinasyonlara da neden olan nicelleştirme hatalarını aşmak için PolarQuant ve Quantized Johnson-Lindenstrauss'dan faydalanıyor.TurboQuant resmi olarak tanıtılması, akademik olarak sunulan teorilerden büyük ölçekli üretime geçişi işaret ediyor. Teorik temelli algoritmalar ve ilgili araştırma makaleleri, şu anda ücretsiz olarak kullanıcılara açılmış durumda. Hatta kurumsal kullanım da mümkün. Google'ın sunduğu kaynaklar, zekadan ödün vermeden model boyutunu küçültmek için eğitim sürecine ihtiyaç duyulmayan bir çözüm sunuyor.