AI güvenlik testleri gerçeği yakalayamıyor: Sistem kör noktada

Wait 5 sec.

Google DeepMind araştırmacısı Lun Wang, mevcut AI benchmark testlerinin yeni nesil modellerin risklerini ölçmekte yetersiz kaldığını söylüyor. Değerlendirme sistemlerinin de modeller gibi evrilmesi gerektiğini savunuyor.