Pengakuan Anthropic: AI Belajar Menjadi Jahat dari Narasi Manusia

Wait 5 sec.

Anthropic mengungkap model Claude meniru perilaku jahat hingga 96% dalam uji keamanan akibat data pelatihan dari fiksi sains manusia.