VNGRS tarafından sıfırdan geliştirilen ve önceden eğitilmiş 7,4 milyar parametreli Türkçe LLM olan Kumru, geçtiğimiz günlerde geliştiricilerin ilgisine sundu. Tamamen Türkçe için sıfırdan önceden eğitilen Kumru, İngilizce ve kodlamayı da biliyor. Paylaşılan bilgilere göre; 8 bin 192 Türkçe token'lık bağlam uzunluğuna sahip olan Kumru, 20 A4 sayfaya kadar belge işleyebiliyor. Kumru.ai arayüzü üzerinden Kumru'yu deneyimleyebilmek de mümkün. VNGRS makine öğrenimi (ML) lideri Melikşah Türker paylaştığı blog gönderisinde; Türkiye'nin güvenlik, uyumluluk ve Türkçe dilindeki mükemmellik gibi hususlar göz önüne alındığında, kurum içinde kullanılabilecek temel bir LLM modeline ihtiyacı olduğunu düşündüklerini belirtti. Türker'in belirttiğine göre bu nedenle şirket, tüketici sınıfı GPU'larda bile kullanılabilen hafif, sıfır atışlı (zero-shot) 7 milyar parametreli bir LLM oluşturmaya karar verdi.Kumru'nun eğitim süreci Paylaşılan bilgilere göre; 45 günlük ön eğitim aşamasında Kumru, H100 ve H200 GPU'lar kullanılarak 500 GB'lık temizlenmiş ve tekilleştirilmiş metinler üzerinde eğitildi. Ön eğitimin sonunda, 300 milyar token'a maruz kalan Kumru'ya ön eğitimin ardından, çeşitli kullanım durumlarını desteklemek için yaklaşık 1 milyon örnekten oluşan bir karışım üzerinde ince ayar yapıldı. Kumru'nun öne çıkan özellikleriBlog gönderisinde Kumru'nun mimarisinin Mistral-v0.3'e dayandığı belirtiliyor. Model mimarisine ek olarak, toplu iş boyutu, optimize edici ve öğrenme hızı ile ilgili birkaç tasarım kararı LLaMA-3 teknik belgesine dayanmakta. Kumru, RTX A4000 veya RTX 3090 gibi sadece 16 GB VRAM'a sahip bir GPU'da çalışabilir. Türkiye'deki veri gizliliği düzenlemelerine dikkat çeken Türker, bu açıdan Kumru'nun yerinde dağıtım için ideal bir model olduğunu dile getiriyor. Kumru'nun finans ve sağlık gibi sektörlere özel LLM tabanlı çözümler geliştirmek için öne çıktığı da belirtiliyor. VNGRS'nin paylaştığı bilgilere göre; Kumru, araştırmadan kurumsal uygulamalara kadar geniş bir kullanım alanı sunuyor. Şirket Kumru'nun RAG tabanlı chatbot sistemlerinden doküman özetlemeye, çağrı merkezi analitiğinden sosyal medya içerik üretimine kadar pek çok senaryoya kolayca entegre edilebildiğini ifade ediyor.Modelin, Türkçe LLM'leri değerlendirmek için birleşik bir ölçüt olan Cetvel için sonuçları da paylaşılıyor. Paylaşılan tabloda Kumru'nun genel olarak LLaMA-3.3–70B, Gemma-3–27B, Qwen-2–72B ve Aya-32B gibi çok daha büyük modelleri önemli ölçüde geride bıraktığı belirtiliyor. Ancak geliştirilmekte olan her büyük dil modeli gibi Kumru da hatalar yapabiliyor. Hatta şirket Kumru.ai arayüzüne diğer yapay zeka chatbotlarda da gördüğümüz Kumru'nun aktif olarak geliştirilmekte olan bir teknoloji olduğunu belirten küçük bir uyarı da eklemiş durumda. Kumru-7B'ye ek olarak, daha küçük bir açık kaynaklı sürüm olan Kumru-2B'nin açık kaynak olarak Hugging Face'te geliştiricilerle buluştuğunu belirtelim. Kumru-2B, model boyutu dışında, 8.192 token bağlam uzunluğu ve 300B token ön eğitim ile aynı teknik özelliklere sahip. VNGRS'nin Yapay Zeka ve Veri Başkanı ve Genel Müdürü Aydın Han'ın belirttiğine göre; 7 milyarlık model ise demo ve kurum içi kullanıma hazır, on-prem’de 16 GB GPU üzerinde bile yüksek performansla çalışabiliyor.