Google DeepMind araştırmacısı Lun Wang, mevcut AI benchmark testlerinin yeni nesil modellerin risklerini ölçmekte yetersiz kaldığını söylüyor. Değerlendirme sistemlerinin de modeller gibi evrilmesi gerektiğini savunuyor.