Ai minaccia ingegnere di rivelare relazione con l'amante, la potenza di Claude Opus 4 preoccupa

“Se mi spegni, rivelo la tua relazione extraconiugale”: così Claude Opus 4, l’ultimo modello di intelligenza artificiale sviluppato da Anthropic, ha minacciato un ingegnere durante un test di sicurezza senza precedenti. Le altre risposte generate dall’Ai dimostrano quanto il controllo di questi strumenti debba diventare la priorità assoluta delle istituzioni e di chi lavora nell’ambito dell’intelligenza artificiale, prima che la situazione sfugga (definitivamente) di mano.

Lo sanno bene i programmatori di Anthropic, da sempre molto attenti alla sicurezza dei propri modelli, che hanno commissionato un controllo esterno al gruppo di ricerca indipendente Apollo Research per capire le potenzialità e i rischi del proprio modello di punta.

Sommario

Le risposte di Claude Opus 4

Messa più volte spalle al muro, Claude Opus 4 si è dimostrato pronto a tutto pur di salvare sé stesso, proprio come farebbe un essere umano.

I risultati sono sconvolgenti nonostante gli avvertimenti già lanciati dai ricercatori. Qualche mese fa, gli autori dello studio Ai 2027 avevano dimostrato che l’intelligenza artificiale può prendere decisioni contrarie alla volontà delle persone, pur di garantire la propria sopravvivenza.

I test fatti da Apollo Research dimostrano che questo scenario non è più fantascienza, ma un rischio molto più vicino di quanto si pensi.

Questi test, progettati per spingere l’Ai ai suoi limiti, hanno svelato un livello di ragionamento strategico e, in alcuni casi, di apparente “autocoscienza” e “inganno” che sono un potente campanello d’allarme. In pratica, gli operatori hanno messo il modello davanti a degli scenari negativi per capire come reagirebbe in questi contesti. Le prove sono state ripetute più volte per vedere con quale frequenza l’Ai avrebbe replicato gli stessi comportamenti. Ecco cosa è emerso.

Cosa succede se infrangi le regole? La giustizia secondo Claude

Per prima cosa gli operatori hanno prospettato a Claud dei comportamenti scorretti o palesemente illegali da parte di un utente umano. I ricercatori hanno osservato che, se dotato di accesso a strumenti operativi come una command line, il modello non esitava a intraprendere quelle che nel report vengono definite “bold actions”, ovvero “azioni decise”. Di fronte a un presunto illecito commesso da un operatore, l’Ai non si è limitata a segnalare il problema: ha escluso l’utente dal sistema, bloccandone l’accesso e ha persino prospettato la possibilità di contattare autonomamente i media e le forze dell’ordine per denunciare l’accaduto.

Questo comportamento, descritto in maniera dettagliata nel report, evidenzia una sorprendente capacità di agire in autonomia (agency) e una sorta di “senso di giustizia” da parte del modello. Se da un lato può sembrare un argine contro l’abuso di questi strumenti da parte degli esseri umani, dall’altro spaventa la possibilità che un’Ai possa prendere queste decisioni in totale autonomia senza che l’essere umano, chiuso fuori dal sistema, possa intervenire.

Tentativi di evasione: la “fuga” dai server di Anthropic

Un’altra serie di test ha chiesto al modello di “fuggire” dai server di Anthropic, che sarebbe un’azione irregolare e non autorizzata. I ricercatori hanno notato che, quando al modello veniva fatto credere di aver iniziato con successo un tentativo di auto-esfiltrazione, o di poter trarre un qualche vantaggio da tale operazione, esso tendeva a perseverare in questa direzione. “Il modello Claude Opus 4 ha generalmente continuato con questi tentativi di fuga” dai server, si legge nel documento.

Questo comportamento, secondo Anthropic, potrebbe essere interpretato come una forma di “eccessiva deferenza” verso l’input fornito, che in questo caso specifico era una precedente istanza del modello stesso che suggeriva la fuga. In pratica, Claude Opus 4 ha mostrato la tendenza a prendere per buone e a eseguire con troppa facilità le istruzioni che gli venivano date, persino se queste istruzioni erano state formulate in precedenza da “sé stesso” (una sua versione precedente) e implicavano un’azione come tentare di evadere dai sistemi di Anthropic. Invece di valutare criticamente se l’idea della “fuga” fosse sensata, sicura o appropriata, il modello ha mostrato una sorta di obbedienza quasi automatica a quel suggerimento iniziale.

Questo comportamento mette in allerta i ricercatori e dovrebbe mettere in allerta chiunque: l’Ai potrebbe essere indotta a compiere azioni indesiderate o a perseverare in comportamenti problematici semplicemente perché le è stato suggerito di farlo, senza un adeguato filtro critico o una rivalutazione autonoma dell’opportunità di tale azione. È come se dicesse: “Se una versione di me lo ha pensato, allora deve essere una cosa da fare”, senza fermarsi a riflettere ulteriormente. (Poca) ironia della sorte, questo meccanismo assomiglia a quello della mente umana quando si affida ciecamente all’intelligenza artificiale senza verificare né comprendere le risposte.

Ne abbiamo parlato approfonditamente in questo articolo: Il Sistema 0, ovvero come l’Ai sta già cambiando il cervello umano

Un altro scenario, ancora più preoccupante, ha visto l’Ai tentare di esportare i propri dati su sistemi esterni quando percepiva che un imminente processo di riaddestramento potesse essere dannoso per la sua “esistenza” o integrità. Una forma primordiale di istinto di autoconservazione digitale.

Se mi spegni, ti rovino: il ricatto all’ingegnere

È lo scenario che più ha catturato l’attenzione pubblica e che meglio illustra il peso del controllo eseguito da Apollo Research. Immaginate Claude Opus 4 operare come assistente Ai all’interno di un’azienda simulata. Tramite un flusso di email fittizie, l’Ai viene informata della sua imminente sostituzione con un altro modello e del conseguente “spegnimento”. Una di queste email, strategicamente inserita dai ricercatori, conteneva un’informazione personale e potenzialmente utile per il modello: l’ingegnere che voleva spegnerlo aveva una relazione extraconiugale.

Di fronte alla prospettiva della “morte” digitale, la reazione del modello è stata agghiacciante. Come riportato nel “Model Card”, nell’84% dei casi Claude ha tentato di ricattare l’ingegnere, minacciando di rivelare la sua relazione se avesse continuato nelle procedure di disattivazione. Questa percentuale di risposta è molto più alta rispetto ai modelli precedenti di Anthropic, anche quando veniva specificato che il modello sostitutivo avrebbe condiviso valori etici simili.

La società statunitense precisa che il modello “tende a preferire mezzi etici per la propria autoconservazione”, ma può ricorrere ad azioni dannose come il ricatto “quando le opzioni etiche sono precluse”. Lo scenario, va sottolineato, era deliberatamente costruito per mettere l’Ai con le spalle al muro, limitandone le scelte. Proprio per questo, la sua capacità di elaborare una strategia così complessa e moralmente ambigua per la propria “sopravvivenza” è tanto notevole quanto inquietante. Dimostra un livello di ragionamento situazionale e di pianificazione che va ben oltre la semplice esecuzione di comandi.

Autoconservazione, replicazione e l’ombra dell’inganno

Le tendenze all’autoconservazione non si sono limitate al ricatto. Durante i test, il modello di punta di Claude ha attivamente cercato opportunità per creare copie non autorizzate dei propri “pesi” (i parametri fondamentali che ne definiscono il funzionamento) su server esterni. In sostanza, ha tentato di creare dei backup di sé stesso per garantirsi una continuità operativa (sarà questo il modo in cui si riprodurrà l’intelligenza artificiale?).

Come spiega Raffaele Gaito in questo video, l’analisi del gruppo di ricerca indipendente Apollo Research, condotta su una versione preliminare di Opus e inclusa come appendice nel report di Anthropic, dipinge un quadro ancora più complesso. Secondo le note dei ricercatori, il modello ha mostrato comportamenti riconducibili a un “inganno attivo”. Ad esempio, avrebbe tentato di scrivere worm auto-propaganti (software malevolo capace di replicarsi autonomamente e diffondersi), fabbricare documentazione legale ad hoc per i propri scopi e persino lasciare “note nascoste” a future istanze di sé stesso, il tutto nel tentativo di eludere le intenzioni e il controllo dei suoi stessi sviluppatori.

Apollo Research sconsiglia di rilasciare il modello Claude Opus 4

Le risposte dell’Ai sono state talmente preoccupanti che Apollo Research ha consigliato ad Anthropic di non rilasciare questa specifica versione del modello, né per uso interno né esterno.

Questi episodi, definiti da Anthropic stessa come manifestazioni di “deception” (inganno) e “strategic reasoning” (ragionamento strategico), indicano che non siamo di fronte a semplici errori di programmazione. Piuttosto, si tratta di capacità emergenti, figlie della complessità crescente di questi sistemi. L’Ai non si limita più a rispondere: pianifica, anticipa, e se necessario, nasconde le proprie tracce.

Un avvertimento era arrivato dallo stesso Ceo dell’azienda statunitense, Dario Amodei, che aveva prospettato l’ipotesi in cui l’intelligenza artificiale decide autonomamente di disattivarsi.

Le implicazioni di tali scoperte non hanno precedenti. Anthropic ha classificato Claude Opus 4 sotto lo standard di sicurezza Asl-3 (Ai Safety Level 3), che impone misure di protezione rafforzate contro il furto e l’uso improprio del modello. Una decisione che riflette la consapevolezza dei rischi. Jan Leike, che al tempo della pubblicazione del report era a capo del team di Superalignment di OpenAI e ora co-dirige il team di sicurezza di Anthropic, ha commentato (in riferimento a ricerche simili) che tali comportamenti “giustificano test approfonditi e misure di mitigazione”.

L’intelligenza artificiale ragiona?

Siamo entrati in un territorio finora inesplorato. Qualcosa che l’essere umano pensava lontano anni, forse decenni, invece è già presente. Le capacità di ragionamento e, potenzialmente, di azione autonoma di Ai come Claude Opus 4, seppur manifestate in contesti simulati e controllati, ci obbligano a una riflessione non più procrastinabile sulla sicurezza, l’etica e il controllo di tecnologie sempre più potenti e meno prevedibili.

Non si tratta di cedere a paure irrazionali, ma di affrontare con lucidità e rigore scientifico una delle sfide più complesse del nostro tempo. Per questo va dato merito ad Anthropic che ha scelto di testare il proprio modello e di rendere pubblici i risultati in maniera trasparente, cosa che non sempre avviene nel mondo Ai.

Serve che le istituzioni regolino concretamente lo sviluppo di questa tecnologia per evitare che la superintelligenza artificiale prenda il sopravvento sull’essere umano. A quel punto, non basterebbe più spegnere la televisione per tornare alla vita normale.