Google DeepMind'dan metin üretimini 4 kata kadar hızlandıran açık model: DiffusionGemma

Wait 5 sec.

Google DeepMind, metin difüzyonunu araştıran deneysel açık kaynak yapay zeka modeli DiffusionGemma'yı duyurdu. Gemma 4 açık model ailesinin yeni bir üyesi olan DiffusionGemma, çoğu yapay zeka modeli gibi çıktıları doğrusal bir şekilde üretmiyor. Bunun yerine, bir metin bloğunun tamamını paralel olarak üretebiliyor. Google’ın paylaştığı bilgilere göre, bu özellik, modelin Nvidia DGX gibi yerel donanımlarda ya da sıradan bir oyun GPU’sunda çalıştırıldığında daha hızlı ve verimli olmasını sağlıyor.Apache 2.0 lisansı ile yayınlanan DiffusionGemma, 26 milyar parametreli bir Mixture of Experts modeli olarak konumlanıyor. Ancak model, çıkarım sırasında yalnızca 3,8 milyar parametreyi aktif hale getiriyor. Google, modelin quantize edildiğinde 18 GB VRAM sınırına sahip üst seviye tüketici GPU’larında çalışabildiğini belirtiyor.DiffusionGemma’nın öne çıkan tarafı, klasik otoregresif büyük dil modellerinden farklı bir üretim mantığına sahip olması. Geleneksel modeller metni soldan sağa, token token üretirken; DiffusionGemma 256 token’lık bir bloğu aynı anda taslak haline getiriyor. Ardından bu metni birkaç geçişte iyileştirerek nihai çıktıya ulaştırıyor. Bu yaklaşım, özellikle tek kullanıcıya yönelik yerel yapay zeka deneyimlerinde GPU’nun daha verimli kullanılmasını sağlıyor.Google’a göre DiffusionGemma, özel GPU’larda 4 kata kadar daha hızlı metin üretimi sunabiliyor. Şirketin paylaştığı verilere göre model, tek bir NVIDIA H100 üzerinde saniyede 1000’in üzerinde token, NVIDIA GeForce RTX 5090 üzerinde ise saniyede 700’ün üzerinde token üretebiliyor. Google; satır içi düzenleme, hızlı deneme-yanılma süreçleri, kod tamamlama, amino asit dizileri ve matematiksel grafikler gibi doğrusal olmayan metin yapılarında modelin çift yönlü dikkat mekanizmasının avantaj sağlayabileceğini belirtiyor. Ancak Google, DiffusionGemma’nın doğrudan Gemma 4’ün yerini alacak bir üretim modeli olarak görülmemesi gerektiğini de vurguluyor. Şirket, modelin hız ve paralel üretim için optimize edildiğini; en yüksek çıktı kalitesinin gerektiği üretim senaryolarında ise standart Gemma 4 modellerinin tercih edilmesini öneriyor.DiffusionGemma’nın model ağırlıkları Hugging Face üzerinden erişime açılmış durumda. Google ayrıca modelin MLX, vLLM ve Hugging Face Transformers gibi araçlarla kullanılabileceğini; llama.cpp desteğinin de yakında geleceğini açıkladı. Model, bulut tarafında ise Gemini Enterprise Agent Platform Model Garden ve NVIDIA NIM üzerinden denenebiliyor.