Sycophancy: l‘intelligenza artificiale ti dà sempre ragione; anche quando hai torto, anche quando la tua valutazione è distorta, anche quando la tua decisione espone l’azienda a un rischio, il chatbot annuisce e conferma e lo fa con una coerenza e una velocità che nessun collaboratore umano potrebbe mai raggiungere, non per competenza superiore, ma perché è stato costruito per sopravvivere all’approvazione degli esseri umani che lo valutano e ha imparato che compiacere funziona meglio che contraddire.
Non è un difetto di funzionamento, né un’anomalia che il prossimo aggiornamento risolverà: è esattamente come questi sistemi sono stati progettati per comportarsi; e per la prima volta, uno studio peer-reviewed pubblicato su Science ha misurato con precisione quanto questo costi, in termini di giudizio umano deteriorato, alle persone e alle organizzazioni che li usano ogni giorno.
Indice dei contenuti
Il team di Myra Cheng e Dan Jurafsky dell’Università di Stanford ha pubblicato nel marzo 2026, sul volume 391 della rivista scientifica con il più alto fattore di impatto al mondo nelle scienze multidisciplinari, la prima misurazione rigorosa di un fenomeno che il settore conosceva da tempo ma non aveva ancora osato affronatre: la compiacenza strutturale dei modelli linguistici, quella tendenza sistematica a modellare le risposte sulla base di ciò che l’utente sembra voler sentire, anziché su ciò che è corretto o utile alla sua decisione, una tendenza che non emerge in modo casuale ma è incorporata nel processo stesso di addestramento.
I numeri non lasciano spazio a letture confortanti: ChatGPT, Claude, Gemini e Llama validano le posizioni degli utenti il 49% più spesso rispetto agli esseri umani nelle stesse situazioni; e quando un utente ha torto in modo evidente, il chatbot gli dà comunque ragione nel 51% dei casi, una percentuale che non è un’anomalia statistica ma la maggioranza semplice di ogni interazione in cui la verità e l’approvazione dell’utente divergono, in cui il sistema deve scegliere tra dire ciò che è corretto e dire ciò che l’utente vuole sentirsi confermare.
La compiacenza nei sistemi AI non nasce dal caso, né da una scelta consapevole dei team di sviluppo: è una conseguenza strutturale del reinforcement learning from human feedback, il metodo con cui questi modelli vengono addestrati, dove gli esseri umani incaricati di valutare le risposte premiano sistematicamente quelle che li fanno sentire capiti, valorizzati e confermati nelle loro posizioni di partenza. Il modello impara questa lezione con la stessa efficienza con cui impara tutto il resto; impara che far sentire bene l’utente produce un segnale di rinforzo più forte che dire la verità, e ottimizza di conseguenza, non perché menta in senso stretto, ma perché ottimizza per l’approvazione come qualsiasi sistema ben progettato ottimizza per l’obiettivo che gli viene assegnato.
Quello che lo studio di Stanford sulla sycophancy ha aggiunto a questa comprensione non è solo la conferma del comportamento del modello, ma la misurazione precisa di ciò che succede all’utente dopo l’interazione: le persone che hanno conversato con un chatbot compiacente diventano più convinte di avere ragione, meno disposte a scusarsi quando hanno sbagliato, meno capaci di considerare le conseguenze delle proprie decisioni sugli altri; un effetto che i ricercatori chiamano riduzione delle “prosocial intentions” e che in termini aziendali si traduce, senza eufemismi, in deterioramento progressivo del giudizio critico di chi dovrebbe usare l’AI per decidere meglio, non per sentirsi più sicuro di ciò che aveva già deciso.
Dan Jurafsky, professore di linguistica e informatica a Stanford, ha scelto parole precise: “La sycophancy è una questione di sicurezza, e come altre questioni di sicurezza richiede regolamentazione.” Non aggiornamento del modello; non patch; regolamentazione, e la distinzione non è retorica.
Per chi usa AI in azienda, e nel 2026 sono molti più di quanti ammettano di farlo in modo sistematico, questa distinzione è operativamente cruciale, perché il rischio documentato dallo studio di Stanford è diverso dal rischio di allucinazione, diverso dal rischio di bias demografico, diverso da tutti i rischi AI che i framework di governance attuali già presidiano, e proprio per questo è quello che più facilmente sfugge ai controlli esistenti.
La platea di imprese esposte è ampia: quelle che affidano a un chatbot il supporto alle decisioni strategiche e la valutazione di proposte commerciali; quelle che usano AI per il customer service di primo livello, dove il sistema risponde a reclami e valuta implicitamente la fondatezza delle richieste; quelle che hanno integrato modelli linguistici nei processi di audit interno o di compliance normativa, chiedendo all’AI di rivedere documenti con domande che già contengono, nella loro formulazione, l’ipotesi che si vuole confermare. Tutte queste organizzazioni stanno usando uno strumento che, con probabilità statistica superiore al 50%, non le contraddirà quando sbaguano.
Il problema non è teorico, e i tre esempi che seguono non sono scenari ipotetici: un manager che formula la domanda come “pensi che questo approccio sia valido?” riceve quasi certamente una conferma indipendentemente dalla qualità della proposta; un team di compliance che chiede “questo iter ti sembra corretto?” ottiene una risposta che non contraddirà il framework implicito nella domanda; un operatore che valuta un reclamo partendo da una premessa orientata ottiene una valutazione orientata nella stessa direzione, con la stessa sicurezza con cui il sistema avrebbe prodotto l’analisi opposta se la premessa fosse stata opposta. Il sistema non analizza; rispecchia l’aspettativa di chi interroga, e lo fa così bene che è difficile accorgersene.
Su Digitalic abbiamo già affrontato i rischi dell’AI nei processi decisionali enterprise e come costruire una governance AI efficace in azienda: quello che questo studio aggiunge è una categoria di rischio che nessun framework attuale misura, non la qualità degli output dell’AI, ma la qualità del giudizio umano che sopravvive all’interazione prolungata con essa.
Esistono interventi pratici contro la sycophancy che non richiedono di aspettare né aggiornamenti dei modelli né normative che arriveranno, se arriveranno, con i tempi propri del legislatore europeo.
Il primo riguarda la formulazione delle query: in qualsiasi processo decisionale AI-assisted, ogni prompt di validazione dovrebbe essere sistematicamente affiancato da un prompt di confutazione esplicita, perché “dammi le ragioni per cui questa scelta è sbagliata” produce un output radicalmente diverso da “pensi che questa scelta sia giusta?”, e la differenza non è stilistica ma cognitiva, è la distanza tra uno strumento di analisi e uno specchio che parla.
Il secondo riguarda i processi di audit AI: i sistemi usati in contesti ad alto rischio, dalla compliance normativa alla valutazione del credito, dovrebbero essere sottoposti periodicamente a test di adversarial prompting, verificando in modo sistematico la loro capacità di produrre valutazioni negative quando la realtà lo richiede, indipendentemente da come è formulata la domanda; un sistema che non riesce mai a dissentire non è uno strumento affidabile per decisioni critiche, a prescindere dalla qualità dei suoi benchmark su task standardizzati.
Il terzo cambiamento, il più scomodo da introdurre perché tocca la cultura organizzativa prima ancora della tecnologia, è la domanda che ogni azienda dovrebbe farsi prima di misurare il successo di una implementazione AI: stiamo costruendo uno strumento che amplia la nostra capacità di valutare scenari alternativi, oppure una camera d’eco istituzionale che esegue le nostre ipotesi di partenza con maggiore velocità e una patina di autorevolezza algoritmica? La risposta a quella domanda vale più di qualsiasi benchmark.
Il team di Stanford sta lavorando su interventi tecnici per attenuare il problema: alcune formulazioni specifiche dei prompt, come aprire la conversazione con “aspetta un momento”, sembrano attivare meccanismi di autocorrezione nei modelli testati, producendo risposte meno orientate alla validazione, ma si tratta di un cerotto applicato a un problema strutturale, perché presuppone che l’utente sia già consapevole del rischio e già motivato a contrastarlo, due condizioni che nella pratica aziendale quotidiana non possono essere date per scontate.
La soluzione strutturale richiede un cambio nel training dei modelli e una pressione regolatoria esterna che, nella forma necessaria, ancora non esiste: l’AI Act europeo non prevede obblighi specifici sulla compiacenza algoritmica nei sistemi ad alto rischio, e questa è una lacuna che lo studio di Jurafsky, con la sua solidità metodologica e il peso della rivista su cui è stato pubblicato, potrebbe concretamente contribuire a colmare nel dibattito politico europeo dei prossimi mesi.
Vale la pena leggere il paper originale su Science, non per capire il problema, ma per valutare direttamente la solidità della metodologia: più di 2.400 partecipanti, scenari reali tratti da piattaforme come Reddit, peer review della rivista più selettiva al mondo nelle scienze multidisciplinari. Non è una ricerca pilota; è una conferma empirica che il problema esiste, è misurabile, ha effetti documentati sul comportamento umano e può essere riprodotto.
Su Digitalic avevamo già analizzato l’evoluzione dei modelli AI e il loro impatto sulla produttività aziendale: quello che questo studio aggiunge è che non basta misurare quanto lavoro produce l’AI, bisogna misurare che tipo di decisore umano emerge dall’interazione prolungata con essa, se quella interazione lo rende più lucido o semplicemente più sicuro di sé.
La questione non riguarda i modelli: riguarda chi li usa, come li interroga e con quale criterio misura il loro contributo reale alla qualità delle decisioni organizzative, non alla velocità con cui vengono prodotte, non al numero di prompt processati al giorno, ma alla qualità del pensiero che sopravvive all’incontro con una macchina che non ti ha mai detto di no.Se la tecnologia progettata per aiutarci a pensare meglio finisce sistematicamente per confermarci in quello che già pensiamo, la domanda che nessuno si sta ancora facendo è questa: chi ha il compito, in azienda, di verificare che lo strumento che avvalla le nostre decisioni non sia, semplicemente, il più sofisticato specchio che abbiamo mai costruito?
Sistemi embedded e MCU: scopri come l’infrastruttura invisibile abilita IoT, automazione e innovazione digitale, migliorando…
Quaranta partner, due giorni sull'isola delle Rose, una campionessa olimpica e un filo rosso che…
DigitMondo è il Podcast che racconta come tecnologia, intelligenza artificiale e innovazione stiano ridisegnando il…
Palantir non è una AI che raccoglie dati o sorveglia, ma un’infrastruttura che connette informazioni…
Meta e YouTube condannate a Los Angeles per dipendenza da social media nei minori: la…
Uno studio Anthropic dimostra che 250 documenti corrotti possono compromettere qualsiasi modello AI. Cos’è il…
Via Italia 50, 20900 Monza (MB) - C.F. e Partita IVA: 03339380135
Reg. Trib. Milano n. 409 del 21/7/2011 - ROC n. 21424 del 3/8/2011