Esiste un nuovo tipo di attacco contro l’intelligenza artificiale, magari non è spettacolare, non produce immediatamente effetti visibili con un singolo prompt malevolo, ma è più sottile… Diciamo che assomiglia più a una forma di educazione anzi di “mala educación” se lo vogliamo dire alla Pedro Almodovar, che a un attacco informatico.

ma come funziona il Data Poisoning: un modello linguistico (un LLM) viene interrogato giorno dopo giorno attraverso domande (prompt) studiate con precisione. Le risposte vengono analizzate per cercare di spingere il modello in una determinata direzione. Ogni conversazione sposta leggermente il confine di ciò che il modello considera accettabile.

All’inizio non succede nulla, il sistema risponde come sempre. Poi qualcosa cambia: dopo molte interazioni il modello comincia a comportarsi in modo diverso. Non perché sia stato violato, ma perché è stato lentamente influenzato, addestrato. È un attacco che non sfrutta una vulnerabilità nel codice, ma colpisce il processo di apprendimento. In altre parole, invece di violare il sistema lo si addestra nel modo che conviene all’attaccante.

Data poisoning: quando l’attacco diventa una strategia

Per capire quanto sia interessante questo fenomeno bisogna fare un passo indietro. La sicurezza informatica tradizionale è costruita su eventi puntuali: un malware, una vulnerabilità, un accesso non autorizzato, un worm, qualcosa che accade in un momento preciso.

Gli LLM cambiano la natura del problema, sono una totale novità per le strategie di sicurezza. Sono sistemi che apprendono da enormi quantità di dati e che interagiscono continuamente con gli utenti. Questa caratteristica li rende incredibilmente utili ma introduce anche una nuova dimensione di rischio.

Gli studiosi parlano di data poisoning o knowledge poisoning: un attaccante non cerca di ingannare il modello una sola volta, ma cerca di influenzarlo nel tempo.

Può farlo inserendo documenti manipolati facendoli di fatto entrare nel un sistema RAG; può costruire conversazioni consequenziali progettate per indebolire gradualmente i limiti del modello; può sfruttare sistemi di feedback che consentono ai modelli di adattarsi alle interazioni degli utenti.

Un recente studio pubblicato su arXiv analizza proprio queste vulnerabilità nei sistemi basati su modelli linguistici.

Il punto interessante è che questo tipo di attacco non richiede necessariamente capacità tecniche straordinarie. Richiede soprattutto tempo, pazienza e comprensione del comportamento del modello.

Data poisoning: quando l’intelligenza artificiale diventa un bersaglio

Negli ultimi anni abbiamo discusso molto di come l’intelligenza artificiale possa migliorare la sicurezza informatica attraverso, per esempio, sistemi di rilevamento delle anomalie, analisi automatica delle minacce, difese adattive, correlazione di eventi.

Tutto questo resta vero (ovviamente), allo stesso tempo però l’AI sta diventando anche un nuovo bersaglio.

I modelli linguistici stanno entrando nelle infrastrutture aziendali, analizzano documenti e supportano decisioni operative; in molti casi sono collegati a database e sistemi informativi: manipolare il comportamento di un modello potrebbe quindi avere conseguenze molto concrete.

Secondo il CrowdStrike Global Threat Report, l’uso dell’intelligenza artificiale negli attacchi informatici è in crescita e gli hacker stanno iniziando a sfruttare strumenti generativi per automatizzare alcune fasi degli attacchi.

La combinazione tra questi due fenomeni crea una nuova superficie di rischio, l’AI, infatti, può essere sia uno strumento che con abilità modifica il comportamento di un LLM

La nascita della sicurezza dei modelli

Di fronte a questo scenario sta emergendo una nuova disciplina, la potremmo chiamare sicurezza dei modelli. Non riguarda più soltanto server e reti, ma è pensata nello specifico per proteggere il comportamento delle intelligenze artificiali. Gli esperti stanno sviluppando tecniche di red teaming per LLM, metodologie per analizzare dataset di addestramento e strumenti per monitorare le conversazioni con i modelli.

Per molti anni abbiamo pensato alla sicurezza informatica come alla protezione delle infrastrutture digitali, ora dobbiamo iniziare a pensare anche alla protezione dei sistemi che prendono decisioni, ad un aprotezione dei comportamenti, non solo delle infrastrutture, è un cambio di prospettiva importante.

