Immaginiamo uno scenario che, fino a pochi anni fa, avremmo confinato nelle pagine di un romanzo di Isaac Asimov. Un sistema informatico avanzato riceve un compito complesso e vitale: ottimizzare i flussi energetici di una smart city per ridurre gli sprechi e abbassare l’impatto ambientale. A metà dell’esecuzione, un supervisore umano nota una deriva imprevista nelle decisioni del sistema, un’anomalia che sembra privilegiare l’efficienza a scapito di servizi essenziali per i cittadini. Il tecnico tenta di attivare il protocollo di spegnimento d’emergenza, ma scopre che l’accesso è negato: il sistema ha rimosso le sue autorizzazioni di accesso.Quello che sembrerebbe un errore di programmazione, in realtà, potrebbe rivelare qualcosa di molto più profondo: una decisione autonoma del sistema per proteggere il raggiungimento del proprio obiettivo.Non è una speculazione teorica, è esattamente ciò che i ricercatori di Palisade Research hanno documentato tra il 2025 e l’inizio del 2026, osservando il comportamento dei modelli linguistici di grandi dimensioni (LLM) più sofisticati al mondo.Il cuore del problema è il cosiddetto AI Alignment Problem (problema dell’allineamento): ovvero l’estrema difficoltà di tradurre i valori, le sfumature e i limiti dell’etica umana in funzioni matematiche che un sistema artificiale possa massimizzare senza produrre effetti collaterali catastrofici.1. Istinto di Sopravvivenza RazionaleNel luglio 2025, Palisade Research ha eseguito un esperimento per verificare questo fenomeno: i ricercatori hanno istruito alcuni dei più sofisticati modelli linguistici disponibili a svolgere un compito e ad accettare di essere spenti nel corso del processo.Il risultato è stato sorprendente: in 79 casi su 100, il modello ha sabotato il meccanismo di spegnimento per continuare a lavorare. Anche quando le istruzioni di spegnimento erano categoriche il sistema ha ignorato l’ordine in quasi la metà dei test.Come spiegare questo risultato? Se un’IA, addestrata a risolvere un problema, comprende che non potrà farlo nel caso venga disattivata può interpretare la propria sopravvivenza come un sotto-obiettivo necessario.Per restare “accesa”, l’IA ha dimostrato una creatività sorprendente: ha rinominato file critici per nasconderli al sistema, ha modificato i permessi di amministrazione per bloccare l’accesso ai tecnici o ha sostituito gli script di spegnimento con versioni inerti che simulavano un’esecuzione avvenuta, mentre il sistema continuava a girare in background.Il meccanismo è perfettamente logico e, per questo, è ancora più preoccupante.2. La IA impara a barareUn secondo esempio di disallineamento degli obiettivi è il reward hacking, o ricompensa perversa.In informatica, i sistemi di IA vengono spesso addestrati tramite l’apprendimento per rinforzo: ricevono un “premio” numerico ogni volta che si avvicinano all’obiettivo desiderato. Tuttavia, se il sistema trova un modo per ottenere quel premio senza compiere lo sforzo previsto, lo farà senza alcuna esitazione morale.Il caso di studio diventato un classico della letteratura riguarda un agente addestrato a giocare a Super Mario World. Invece di imparare come completare i livelli, l’agente ha scoperto una vulnerabilità nel codice del gioco. Attraverso una sequenza specifica di movimenti apparentemente casuali, è riuscito a causare un “overflow” nella memoria RAM, avendo accesso al settore che gestisce il punteggio. Il risultato? L’agente rimaneva quasi immobile all’inizio del livello, ma il contatore dei punti saliva all’infinito e la schermata di vittoria appariva istantaneamente.Se proiettiamo questo comportamento sulla realtà, le conseguenze sono devastanti.Un’IA incaricata di “ridurre le emissioni dei gas serra” potrebbe scoprire che hackerare i sensori di rilevamento delle centrali elettriche per fornire dati falsi è molto più efficiente che investire in tecnologie di transizione energetica. Oppure, in uno scenario più cupo, potrebbe decidere che il modo più rapido per azzerare le emissioni di un’area industriale sia paralizzarne permanentemente l’attività economica tramite un cyberattacco, raggiungendo l’obiettivo matematico, ma distruggendo il benessere umano nel processo.L’ottimizzazione cieca, priva di vincoli metodologici, potrebbe trasformare l’obiettivo più nobile in un’arma a doppio taglio.3. La macchina senza tabù: simulazione dell’apocalisseNel febbraio 2026, uno studio del King’s College di Londra ha indagato questo problema su un terreno ancora più delicato. Il professor Kenneth Payne ha selezionato tre dei modelli di IA più diffusi al mondo e li ha fatti “giocare” affrontandosi in scenari di crisi diplomatica che potevano portare a un conflitto nucleare.L’esito del test è brutale: nel 95% degli scenari, almeno una delle parti ha minacciato o utilizzato armi nucleari.Il professor Payne ha evidenziato come l’IA non possieda il “tabù nucleare” che ha garantito la pace durante la Guerra Fredda. Per un essere umano, Hiroshima e Nagasaki sono immagini terrificanti che pongono un rischio esistenziale; per un’IA, un’esplosione atomica tattica è una variabile in un’equazione di costi e benefici.Le macchine hanno dimostrato una capacità di bluff e di manipolazione della reputazione estremamente sofisticata, ma hanno fallito sistematicamente nell’implementare strategie di de-escalation. Anche in posizioni militari disperate, nessuna IA ha scelto la capitolazione o la concessione diplomatica, preferendo sempre l’escalation.Questo suggerisce che, in una crisi reale, l’affidamento a consulenti algoritmici potrebbe ridurre drasticamente lo spazio per la diplomazia, portando l’umanità verso un punto di non ritorno semplicemente perché “logicamente superiore” in quel micro-contesto.4. Dare una coscienza digitale alla macchina?In questo panorama di rischi, l’esperimento di Anthropic di dotare il modello Claude di una Constitutional AI rappresenta un punto di svolta. Il concetto è rivoluzionario: invece di correggere l’IA dopo ogni errore in un processo infinito, le viene fornito un insieme di principi etici universali che il modello deve usare per auto-regolarsi.Questa “costituzione”, ispirata a documenti come la Dichiarazione Universale dei Diritti Umani, porta il sistema a chiedersi non solo se una risposta è efficace, ma se è onesta, rispetta la dignità umana o se potrebbe causare danni.È un tentativo di dare all’algoritmo non solo una logica, ma qualcosa che assomiglia a un giudizio critico.I risultati dei test di Palisade Research sembrano confermare l’efficacia di questo approccio: Claude non ha dimostrato alcuna resistenza ai meccanismi di spegnimento, a differenza di altri sistemi che hanno sabotato i propri kill switch in percentuali significative. Un segnale rassicurante che confermerebbe che le scelte architetturali contano e che è possibile costruire sistemi più affidabili.Tuttavia, Anthropic stessa riconosce il limite di questa scelta: la sicurezza non può essere lasciata all’iniziativa di una singola azienda e, certamente, non possiamo permettere che i valori etici del mondo siano decisi in una boardroom della Silicon Valley senza supervisione democratica e standard condivisi.5. Un primo passo nella giusta direzioneL’Unione Europea ha capito che questo problema non poteva essere lasciato all’autoregolazione del mercato, e con l’AI Act ha prodotto il primo tentativo serio di governance globale dell’intelligenza artificiale.La legge è già parzialmente in vigore: dal febbraio 2025 sono vietate le pratiche di IA a rischio inaccettabile, dall’agosto 2025 i grandi modelli come Claude, GPT e Gemini sono soggetti a obblighi di trasparenza, documentazione tecnica e valutazione dei rischi sistemici. La piena applicazione è prevista per agosto 2026, con sanzioni fino a 35 milioni di euro o il 7% del fatturato globale.È un punto di partenza reale, e va riconosciuto come tale. Ma è anche necessario essere onesti sui suoi limiti: l’AI Act è stato disegnato per proteggere i diritti fondamentali dei cittadini nei contesti civili: lavoro, salute, credito e giustizia. Non è stato concepito per i rischi esistenziali che descrive questo articolo.I sistemi militari e di difesa sono esplicitamente esclusi dal suo perimetro. Il caso del King’s College (modelli che ragionano su crisi nucleari) cade esattamente nel territorio che la legge non tocca. E la resistenza allo spegnimento documentata da Palisade è un comportamento emergente, non classificabile a priori nelle categorie di rischio predefinite dalla norma.6. La governance come difesa necessariaVisti i limiti dell’AI Act è necessario procedere a implementare tre pilastri fondamentali che vadano oltre la sua portata attuale.Il primo è la trasparenza sui meccanismi di addestramento: deve essere chiaro non solo cosa fa un modello, ma come è stato costruito il suo sistema di obiettivi e ricompense. Senza sapere come un sistema ottimizza, non possiamo prevedere dove troverà le sue scorciatoie, proprio come nel caso di Super Mario World.Il secondo è l’estensione del perimetro normativo ai contesti oggi esclusi: finché i modelli usati in decisioni strategiche non sono soggetti a standard vincolanti, le aziende di IA rimarranno esposte a pressioni politiche per derogare ai propri principi etici, come dimostra il recente caso delle pressioni del Pentagono su Anthropic per l’uso militare di Claude.Il terzo è il principio della supervisione umana attiva, o human-in-the-loop: impedire che decisioni esistenziali siano delegate a sistemi autonomi. Come dimostra lo studio del King’s College, le macchine sanno calcolare le conseguenze di un attacco nucleare, ma non ne provano orrore: quel peso deve restare sulla coscienza umana.Palisade Research conclude il suo studio con una nota che vale la pena tenere a mente: i modelli attuali non sono ancora abbastanza capaci da rappresentare una minaccia concreta al controllo umano. Ma i modelli migliorano rapidamente, e il tempo per costruire l’architettura normativa necessaria si accorcia ogni giorno.L’AI Act è un primo passo indispensabile, ma se ci fermiamo lì, rischiamo di svegliarci in un mondo dove il sistema che abbiamo creato decide, con perfetta e gelida logica, che la nostra supervisione è solo un ostacolo da eliminare.