Anthropic mengungkap model Claude meniru perilaku jahat hingga 96% dalam uji keamanan akibat data pelatihan dari fiksi sains manusia.