L’intelligenza artificiale può sfuggire al controllo? L’allarme dei creatori di Claude

“L’intelligenza artificiale può imparare a migliorarsi da sola”. E non sappiamo se potremo gestirla e cosa significherà. L’allarme arriva da Anthropic, l’azienda che ha realizzato il modello di AI Claude, che chiede a tutti i laboratori attivi nel campo di sospendere o almeno rallentare lo sviluppo di questa tecnologia. L’obiettivo è evitare di perdere il controllo sui sistemi e permettere alla società di adattarsi ai loro rapidissimi progressi.

“Riteniamo che sarebbe positivo per il mondo avere la possibilità di rallentare o sospendere temporaneamente lo sviluppo dell’IA di frontiera, per consentire alle strutture sociali e alla ricerca sull’allineamento di tenere il passo con i progressi tecnologici”, si legge in un rapporto pubblicato tramite il centro di ricerca dell’azienda, Anthropic Institute.

Il timore principale della società di Dario Amodei è che entro 2-3 anni si arrivi a modelli in grado di auto-migliorarsi, rendendo l’evoluzione tecnologica troppo veloce da monitorare e gestire.

Sommario

Cos’è l’auto-miglioramento ricorsivo

Il documento si concentra nello specifico sull’auto-miglioramento ricorsivo, ovvero quando un sistema di intelligenza artificiale diventa in grado di progettare e sviluppare autonomamente il proprio successore, senza intervento umano. ”Non ci siamo ancora arrivati e l’auto-miglioramento ricorsivo non è inevitabile. Ma potrebbe verificarsi prima di quanto la maggior parte delle istituzioni sia pronta ad affrontare”, sottolineano gli autori.

“Un’AI in grado di auto-auto-costruirsi rappresenterebbe uno sviluppo epocale nella storia della tecnologia, con potenziali enormi benefici per il mondo in ambito scientifico, sanitario e non solo“, ricorda il documento. Ma piccole forme di comportamento indesiderato, oggi rare o controllabili, potrebbero diventare più frequenti, meno comprensibili e più difficili da correggere, “fino a quando non ne perderemo il controllo”.

Sviluppo velocissimo

Le prove della tendenza ci sono (almeno in casa Anthropic): attualmente, più dell’80% del codice dell’azienda di Amodei è scritto da Claude, e nel primo trimestre del 2026 gli ingegneri hanno rilasciato in media una quantità di codice 8 volte superiore rispetto al periodo 2021-2025, proprio perché è il modello di AI a scriverlo. Questo codice è sempre più al livello di quello umano, anzi l’azienda ritiene che diventerà nettamente migliore entro la fine del 2026.

Ancora, la durata dei compiti che i modelli sono in grado di completare in modo affidabile e in autonomia raddoppia ogni quattro mesi. Nel 2027, potrebbero essere in grado di svolgere compiti per i quali a un essere umano ci vorrebbero settimane. Lo scorso aprile, Claude ha individuato e risolto oltre 800 correzioni nel codice aziendale: un lavoro da quattro anni. E lo stesso schema si ripete nei benchmark di programmazione e ricerca, spiega il rapporto.

“Claude è già in grado di eguagliare o superare le prestazioni di persone esperte”, avvisano gli autori, sia nella scrittura di codice che nei compiti ingegneristici o di ricerca. Di conseguenza, “il ruolo umano si sta riducendo a ogni fase del processo di sviluppo dell’AI“.

L’ultimo vantaggio umano: la capacità di giudizio

“Un ambito in cui l’uomo gode di un vantaggio comparativo, almeno per ora, è rappresentato dal gusto e dalla capacità di giudizio, che includono la scelta dei problemi rilevanti, dei risultati di cui fidarsi e di quando un approccio si rivela un vicolo cieco”, sottolinea il documento. Ma anche questo vantaggio potrebbe essere man mano rosicchiato dall’AI fino a scomparire.

Insomma, se le persone dovranno esclusivamente dirigere, decidere tra output e revisionare, cosa succederà se non saranno in grado farlo con la stessa rapidità con cui l’AI opera? Che diventeranno loro “il collo di bottiglia per lo sviluppo dell’intelligenza artificiale“, sostiene il rapporto. Con conseguenze ignote.

Il futuro (in)immaginabile

Sebbene non sia possibile prevedere il futuro, Anthropic ipotizza tre scenari. Il primo è quello del rallentamento. Ma anche senza ulteriore crescita, i modelli già disponibili potrebbero trasformare il lavoro, la cybersecurity e la produttività aziendale.

Il secondo scenario è quello per cui l’AI non diventa pienamente autonoma nello sviluppo di se stessa, ma automatizza gran parte del lavoro tecnico e lascia agli umani direzione, giudizio e verifica. “Un’azienda di 100 persone può svolgere sempre più il lavoro di un’azienda di 1.000 persone, perché ogni dipendente si troverà al vertice di una piramide di agenti. (…) Ciò rivoluzionerebbe il lavoro (…), ma potrebbe anche essere utilizzato per fini dannosi su una scala che nessun team umano potrebbe eguagliare, dalla sorveglianza autoritaria di intere popolazioni a operazioni di manipolazione personalizzata”, afferma il report.

Il terzo scenario è quello dell’auto-miglioramento ricorsivo completo, dove il ritmo del progresso sarebbe determinato soprattutto dalla disponibilità di compute e dall’efficienza degli algoritmi, mentre gli umani si sposterebbero su controllo, verifica e validazione di un “laboratorio virtuale” gestito dall’AI. È lo scenario più trasformativo e anche quello più difficile da governare, perché abbiamo sempre vissuto in un sistema basato sugli esseri umani.

Una pausa globale

Da qui l’appello a una pausa, che per funzionare deve essere generale e verificabile in modo che non diventi il modo per chi è indietro di recuperare posizioni o per gli altri di fare uno scatto in avanti. Serve perciò, propone il documento, “un meccanismo di coordinamento globale” che coinvolga almeno le principali aziende statunitensi e cinesi, coordinata tra più Paesi e più laboratori di frontiera, con regole chiare. Si tratta di un sistema paragonabile ai trattati sul controllo degli armamenti nucleari, ma più difficile da costruire perché addestrare un modello di AI è molto più facile da nascondere di un silo missilistico, e perché il tempo che è stato necessario per mettere in piedi i meccanismi di non proliferazione in questo caso “potrebbe non esserci”.

Anthropic azienda etica?

Con questo appello Anthropic alimenta la sua immagine di azienda ‘etica’, ma rimangono delle importanti contraddizioni. Il Financial Times, ad esempio, riporta che la società di Dario Amodei avrebbe prestato sei suoi ingegneri alla Nsa (National Security Agency, l’agenzia federale Usa di intelligence e cybersicurezza) per usare il potente e pericoloso Mythos in operazioni informatiche anche offensive. Nello specifico, il modello sarebbe utile per “infiltrarsi nelle reti di nazioni come Cina e Iran“.

Altra contraddizione, sottolineano gli scettici, è che, mentre chiede una pausa nello sviluppo dell’AI, Anthropic ha presentato i documenti preliminari per poter essere quotata a Wall Street, in un’operazione da quasi mille miliardi di dollari. I più malevoli puntualizzano che presentare la propria IA come potenzialmente minacciosa e super potente significa anche evidenziarne le sue capacità, un po’ come accaduto con Mythos stesso.

Ma incongruenze a parte, gli esperti non si aspettano che l’appello dell’azienda di Amodei attecchisca, anche perché la competizione tecnologica tra Stati Uniti e Cina non conosce pause, né la fiducia necessaria per andare in una tale direzione. Come ha sottolineato alla BBC il cofondatore di Anthropic, Jack Clark, attualmente “il settore dell’AI ha solo il pedale dell’acceleratore, non quello del freno”.