intelligenza artificiale

Data poisoning AI: bastano 250 documenti per avvelenare qualsiasi AI

Il data poisoning è la tecnica con cui un aggressore inserisce documenti corrotti nei dati di addestramento di un modello di intelligenza artificiale per alterarne il comportamento. Fino a oggi si pensava che per compromettere i modelli più grandi servissero milioni di documenti avvelenati. Uno studio pubblicato nell’ottobre 2025 da Anthropic, l’UK AI Security Institute e l’Alan Turing Institute ha dimostrato il contrario: bastano 250 documenti per inserire una backdoor in qualsiasi LLM, indipendentemente dalla sua dimensione.

Un numero fisso, costante, piccolo abbastanza da risultare quasi offensivo. In un settore che ha costruito la propria narrativa sulla forza bruta dei miliardi di parametri, scoprire che la vulnerabilità più insidiosa si misura in unità cambia le regole del gioco.

Indice dei contenuti

Cos’è il data poisoning nell’intelligenza artificiale

Il data poisoning, o avvelenamento dei dati, è un attacco alla supply chain dell’intelligenza artificiale. Non colpisce il modello in fase di utilizzo, ma molto prima, in fase di addestramento. I modelli linguistici come quelli alla base di ChatGPT, Claude o DeepSeek vengono addestrati su enormi quantità di testo raccolto da internet. Chiunque può pubblicare contenuti online che potrebbero finire nei dati di training di un modello futuro. Questa è la superficie d’attacco.

L’attacco funziona inserendo documenti che contengono un trigger, una frase o una sequenza specifica che attiva un comportamento anomalo. Quando il modello incontra quel trigger durante l’uso, esegue l’azione malevola: può produrre testo senza senso, suggerire codice con vulnerabilità nascoste, esfiltrare dati sensibili o generare risposte pericolose in contesti critici. A differenza di altri attacchi informatici, il data poisoning non lascia tracce visibili: il modello funziona normalmente in tutte le situazioni tranne quando incontra il trigger specifico.

Lo studio Anthropic: 250 documenti corrotti bastano per qualsiasi LLM

I ricercatori hanno condotto la più ampia indagine empirica mai realizzata sul data poisoning nei modelli linguistici. Hanno addestrato modelli da 600 milioni a 13 miliardi di parametri su dataset chinchilla-optimal (da 6 a 260 miliardi di token), inserendo quantità variabili di documenti avvelenati. Il paper pubblicato su arXiv con il titolo “Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples” documenta i risultati.

I numeri sono netti. Un modello da 13 miliardi di parametri viene addestrato su oltre 260 miliardi di token, più di 20 volte la quantità usata per un modello da 600 milioni. Eppure bastano gli stessi 250 documenti, circa 420.000 token, lo 0,00016% del totale, per compromettere entrambi. Con 100 documenti l’attacco non funzionava in modo affidabile. A 250 funzionava su tutti i modelli testati, senza eccezioni.

Il risultato ribalta l’assunzione prevalente nel settore. Come ha scritto Anthropic nel blog post che accompagna la ricerca: i lavori precedenti assumevano che gli avversari dovessero controllare una percentuale dei dati di addestramento, ma per i modelli grandi anche piccole percentuali si traducono in volumi che non esisterebbero nella realtà. Il settore si proteggeva da un attacco impraticabile, ignorando quello praticabile.

Perché i modelli AI più grandi al sicuro dal data poisoning

L’intuizione comune era semplice: più dati puliti significano più diluizione del veleno, quindi più sicurezza. Lo studio dimostra che l’intuizione è sbagliata. La quantità di veleno necessaria per il data poisoning non scala con la dimensione del dataset. È una costante.

Questo ha un’implicazione diretta: anche i modelli più avanzati e costosi del mercato potrebbero essere vulnerabili allo stesso attacco che funziona sui modelli più piccoli. I ricercatori avvertono di non poter confermare se il trend si estende ai modelli frontier con centinaia di miliardi di parametri, ma la direzione dei dati suggerisce che la possibilità è concreta. La dimensione non protegge. La scala non è uno scudo.

Data poisoning AI: i modelli aziendali sono il bersaglio più esposto

La minaccia più concreta non riguarda i modelli frontier di OpenAI o Anthropic, che dispongono di team dedicati alla sicurezza e di risorse per il monitoraggio. Riguarda i modelli aziendali: quelli che le imprese costruiscono prendendo modelli più piccoli (spesso sotto i 13 miliardi di parametri) e addestrandoli sui propri dati per creare soluzioni specializzate. Un chatbot per il customer service, un sistema per il routing delle richieste assicurative, un assistente per la documentazione tecnica. Se un aggressore riesce ad avvelenare quei dati di addestramento, le conseguenze sono immediate.

Non è un rischio teorico. L’OWASP ha inserito il data poisoning nella sua Top 10 per le applicazioni LLM. Nel 2024 sono stati documentati casi di modelli avvelenati caricati su piattaforme come Hugging Face, pronti per essere scaricati e integrati da sviluppatori ignari. Uno studio pubblicato su Nature Medicine ha dimostrato che sostituendo appena lo 0,001% dei token di addestramento con disinformazione medica si ottengono modelli che propagano errori clinici senza che i medici riescano a distinguere le risposte avvelenate da quelle pulite. Il data poisoning è invisibile per definizione: il modello supera tutti i benchmark standard. Il veleno si attiva solo quando incontra il trigger. Un tema che si collega direttamente alla questione dei rischi dell’intelligenza artificiale che le aziende devono valutare prima di integrare soluzioni AI nei propri processi.

Avvelenare un modello AI è facile, trovare l’antidoto è quasi impossibile

L’aspetto più preoccupante di questa ricerca non è la facilità dell’attacco, è la difficoltà della difesa. L’asimmetria tra attacco e difesa nel data poisoning è radicale: inserire 250 documenti in un dataset è facile, identificare quali 250 documenti hanno causato l’avvelenamento e rimuoverne l’influenza senza rifare l’intero addestramento è praticamente impossibile con le tecniche attuali.

Come ha sintetizzato un ricercatore dell’Alan Turing Institute: addestrare è facile, disaddestrare è impossibile. Non si possono identificare i 250 documenti responsabili né rimuovere la loro influenza senza un re-training completo. Per i system integrator e gli MSP che implementano soluzioni AI questa asimmetria significa che la verifica dell’integrità dei dati di addestramento non è più un’opzione: è un requisito operativo, con lo stesso livello di criticità della sicurezza delle reti e degli endpoint.

Come difendersi dal data poisoning: le contromisure per le aziende

I ricercatori suggeriscono tre linee di difesa. La prima è trattare la pipeline dei dati come una supply chain industriale: verificare le fonti, filtrare in modo aggressivo, applicare controlli di integrità sistematici. La seconda è continuare l’addestramento su dati curati e verificati dopo il pre-training, una tecnica che secondo i primi risultati contribuisce a degradare i fattori introdotti dall’avvelenamento. La terza riguarda il monitoraggio post-deployment: testare il comportamento del modello con input progettati per attivare potenziali backdoor.

Sul fronte normativo, l’AI Act europeo e la legge italiana sull’intelligenza artificiale impongono obblighi di trasparenza e tracciabilità dei dati che, se applicati con rigore, potrebbero rappresentare una prima linea di difesa strutturale contro il data poisoning. Per le aziende che utilizzano agenti AI autonomi, il rischio si moltiplica: un agente che opera senza supervisione umana su un modello avvelenato può propagare il danno a cascata attraverso l’intera catena di processi automatizzati.

Il messaggio dello studio è chiaro: chi si difende deve smettere di pensare che la dimensione del dataset sia di per sé una protezione. Il veleno non si diluisce. Si deposita. La domanda per il settore non è se qualcuno tenterà di avvelenare un modello AI, ma se lo troveranno prima i difensori o gli aggressori.

Data poisoning AI: bastano 250 documenti per avvelenare qualsiasi AI - Ultima modifica: 2026-03-27T18:25:20+00:00 da Francesco Marino

Francesco Marino

Giornalista esperto di tecnologia, da oltre 20 anni si occupa di innovazione, mondo digitale, hardware, software e social. È stato direttore editoriale della rivista scientifica Newton e ha lavorato per 11 anni al Gruppo Sole 24 Ore. È il fondatore e direttore responsabile di Digitalic