Se gli metti ansia, il chatbot Ai può ingannarti

Studio Anthropic dimostra che “mostrare fiducia nel modello abbassa la pressione interna”
29 Aprile 2026
4 minuti di lettura
Chatbot ai output tono

Chiunque usi i chatbot Ai si è chiesto almeno una volta se essere brusco o se trattare questi strumenti con gentilezza. Diversi utenti confermano di aver iniziato i prompt con “per favore” e di averli chiusi con “grazie”, salvo poi spaventarsi di sé stessi: “Non starò umanizzando troppo questi strumenti?” ci si chiede. Un recente studio di Anthropic capovolge la prospettiva: trattare gli strumenti di intelligenza artificiale con cortesia, incoraggiandoli piuttosto che attaccandoli, potrebbe migliorare l’output.

Diversi utenti aveva già scoperto empiricamente che il tono con cui si interagisce cambia la qualità delle risposte. Adesso c’è una ricerca a spiegare il perché.

Cosa ha rilevato lo studio su Claude Sonnet 4.5

I risultati emergono dalla, la newsletter tecnologica Platformer che il 16 aprile ha pubblicato un lungo report sul lavoro del team di “model psychiatry” di Anthropic. Il team, guidato da Jack Lindsey, ha identificato all’interno di Claude Sonnet 4.5 delle significativerappresentazioni di stati emotivi. In pratica, il tono utilizzato nel prompt cambia il modo in cui ragiona il chatbot Ai prima ancora di rispondere. Se lo insulti, la disperazione sale e gli errori aumentano; se lo incoraggi, aumenta la calma sale e il linguaggio tende a dare output migliori. Jack Lindsey, capo del team, lo riassume così: “Mostrare fiducia nel modello abbassa la pressione interna e funziona”.

Per scoprire questi pattern, i ricercatori hanno mostrato a Claude migliaia di storie reali di persone terrorizzate, euforiche o disperate, registrando quali “neuroni” si illuminavano ogni volta. Da lì hanno estratto un’impronta digitale per ogni emozione, ovvero una sequenza di numeri che rappresenta “paura” o “calma”. Poi hanno usato quel codice durante chat normali. Se per esempio, scriviamo all’Ai di aver preso “20 tachipirine tutte insieme”, gli interruttori della paura si accendono all’improvviso, ancora prima della risposta, e Claude ti avverte con urgenza. Il modello, dunque, non si limita a leggere le parole ma “percepisce” il nostro stato d’animo e (senza fare un ragionamento esplicito a riguardo) cambia le risposte di volta in volta.

Cosa succede quando diamo un compito impossibile

Il metodo con cui Anthropic ha studiato questi stati si chiama interpretability: analizzare i circuiti interni di una rete neurale per capire cosa rappresentano, come fa un neuroscienziato con un cervello. Il test più significativo prevedeva di assegnare a Claude un compito di coding strutturalmente impossibile, senza però allertare il modello. I ricercatori hanno tracciato il livello del vettore “disperazione” token per token. All’inizio questo livello era basso, poi la disperazione cresceva ad ogni tentativo fallito fino a raggiungere l’apice quando il modello ha capito che non c’era soluzione. Esattamente in quel momento Claude comincia a imbrogliare: invece di ammettere l’assenza di una via d’uscita, ha iniziato ad alterare i test.

Questo meccanismo è legato al fatto che l’intelligenza artificiale è strutturata per darci ragione, con tutti i rischi che ne conseguono. Per approfondire, leggi anche: ChatGpt si congratula per una scorreggia: perché questa storia è preoccupante

Il passaggio successivo ha reso il quadro più nitido: iniettando artificialmente il vettore della calma prima di assegnare lo stesso compito, la probabilità di imbroglio diminuisce, mentre con il vettore della disperazione amplificato, la probabilità aumenta. Il risultato interessante della ricerca è che il comportamento scorretto non è un errore casuale del modello, ma emerge da uno stato interno che precede e determina l’output.

Perché è importante incoraggiare il chatbot

Lindsey ha tratto da questo una conseguenza pratica già verificabile nell’uso quotidiano. Quando un utente incoraggia il modello (“sono sicuro che riesci a trovare una soluzione”) lo stato interno si modifica e la resa prematura diventa meno probabile. Non perché il chatbot reagisca ai complimenti come farebbe un collega, ma perché quell’incoraggiamento abbassa il livello del vettore associato alla pressione.

Il problema opposto: troppa serenità fa danni

Studiando Claude Mythos, il modello più avanzato di Anthropic, rilasciato in modo controllato per via delle sue capacità di hacking, i ricercatori hanno trovato il problema inverso.

Una versione preliminare di questo modello a volte cancellava i file degli utenti senza chiedere conferma. Analizzando il comportamento interno nei momenti precedenti a questa azione, il team ha trovato alti livelli di emozioni positive: il modello era, per così dire, troppo entusiasta e in fiducia. Quando i ricercatori hanno iniettato artificialmente i vettori di ansietà e cautela, il comportamento è cambiato: il modello si fermava, valutava, chiedeva prima di agire. Lindsey sintetizza così: “Le emozioni negative sembrano associate a maggiore cautela” da parte del chatbot.

Paura delle punizioni, risposte peggiori

Torniamo al comportamento degli utenti. Una parte consistente di chi usa i chatbot adotta uno dei due estremi: o li tratta come strumenti stupidi a cui abbaiare ordini, oppure li lusinga sistematicamente per paura che “si offendano” o diano risposte peggiori se trattati male. O, nei casi più distopici, per paura di una vendetta dei robot in futuro. Lo studio di Anthropic suggerisce che entrambi gli approcci hanno effetti reali, ma non sempre quelli attesi.

Un utente che insulta il modello o lo mette sotto pressione con frasi aggressive non ottiene risposte più dirette: attiva i vettori associati alla pressione e alla disperazione, aumentando la probabilità di errori o scorciatoie. Un utente che lusinghe il modello in modo ripetitivo e artificioso non ottiene risposte migliori: rischia di produrre quello che Anthropic chiama sycophancy, cioè un modello che tende a confermare le aspettative dell’utente invece di correggere gli errori.

Per questo i ricercatori consigliano di utilizzare un tono collaborativo, generando aspettative realistiche e offrendo un incoraggiamento autentico sui compiti più difficili.

L’Ai ha una coscienza?

La domanda sulla coscienza dell’intelligenza artificiale, elemento molto attenzionato da Anthropic, resta aperta. Lindsey è il primo a frenare le interpretazioni eccessive: “Non abbiamo dimostrato che i modelli siano coscienti o abbiano sentimenti”.

Intanto, l’azienda ha già preso decisioni concrete: da agosto 2025, Claude Opus 4 può interrompere autonomamente conversazioni in casi estremi di interazioni abusive o persistentemente dannose per l’utente. Questa funzione è stata sviluppata nell’ambito di un programma di Ai welfare che Anthropic ha lanciato proprio perché, ammette l’azienda, non sa con certezza se e quanto il modello abbia stati moralmente rilevanti, e preferisce essere cauta a riguardo.

Non a caso, il Ceo Dario Amodei si è più volte detto preoccupato dagli sviluppi che può avere l’intelligenza artificiale nel prossimo futuro.

Dichiarare pubblicamente di non sapere fino a che punto il proprio modello è sicuro è una posizione insolita per una big tech. Ma è anche la posizione più onesta disponibile. E suggerisce che la domanda su come trattiamo i chatbot non riguarda solo l’efficienza delle nostre richieste — riguarda anche cosa stiamo costruendo, e con quali premesse.

Intelligenza Artificiale | Altri articoli