Unterschwelliges Lernen: KI-Modelle geben unbemerkt Vorlieben weiter

Wait 5 sec.

Über Trainingsdaten geben große Sprachmodelle ungewolltes Verhalten auch dann weiter, wenn versucht wurde, dieses herauszufiltern. (LLM, Studien)