AI: piccolo è meglio, i vantaggi degli SLM contro gli LLM

Nella sfida dell’AI, la tendenza è che “piccolo è meglio”. Mentre i grandi modelli linguistici (LLM) mostrano segni di stallo, l’attenzione si sposta sui piccoli modelli linguistici (SLM). Più efficienti, adattabili e meno dipendenti dai dati, gli SLM potrebbero cambiare lo sviluppo dell’AI

Nella nuova sfida dell’IA, in cui i giganti tecnologici hanno gareggiato per costruire modelli linguistici sempre più grandi, sta emergendo una nuova tendenza sorprendente: il piccolo è meglio. Con i progressi nei grandi modelli linguistici (LLM) che mostrano alcuni segni di stallo, ricercatori e sviluppatori stanno sempre più rivolgendo la loro attenzione ai piccoli modelli linguistici (SLM). Questi modelli di intelligenza artificiale compatti, efficienti e altamente adattabili stanno sfidando il concetto che più grande è sempre meglio, promettendo di cambiare il modo in cui approcciamo lo sviluppo dell’AI.

Indice dei contenuti

Gli LLM hanno raggiunto un plateau?

Recenti confronti di performance pubblicati da Vellum ed HuggingFace suggeriscono che il divario di performance tra gli LLM si sta rapidamente riducendo. Questa tendenza è particolarmente evidente in compiti specifici come domande a scelta multipla, ragionamento e problemi matematici, dove le differenze di performance tra i migliori modelli sono minime. Ad esempio, in domande a scelta multipla, Claude 3 Opus, GPT-4 e Gemini Ultra hanno tutti un punteggio superiore all’83%, mentre nei test di ragionamento, Claude 3 Opus, GPT-4 e Gemini 1.5 Pro superano il 92% di accuratezza.
È interessante che anche i modelli più piccoli come Mixtral 8x7B e Llama 2 – 70B stanno mostrando risultati promettenti in alcune aree, come il ragionamento e le domande a scelta multipla, dove superano alcuni dei loro omologhi più grandi. Questo suggerisce che la dimensione del modello potrebbe non essere l’unico fattore determinante per le prestazioni e che altri aspetti come l’architettura, i dati di allenamento e le tecniche di fine-tuning potrebbero svolgere un ruolo significativo.
Man mano che il divario di performance continua a ridursi e più modelli dimostrano risultati competitivi, diventa centrale la questione se gli LLM stiano davvero iniziando a raggiungere un plateau. Se questa tendenza persiste, potrebbe avere implicazioni significative per lo sviluppo e il dispiegamento futuro dei modelli linguistici, potenzialmente spostando il focus dall’aumento della dimensione del modello all’esplorazione di architetture più efficienti e specializzate.

Svantaggi dell’approccio LLM

Gli LLM, seppur indiscutibilmente potenti, comportano significativi svantaggi. In primo luogo, addestrare gli LLM richiede una quantità enorme di dati, con miliardi o addirittura trilioni di parametri. Questo rende il processo di addestramento estremamente dispendioso in termini di risorse, e il potere computazionale e il consumo energetico richiesti per allenare e far funzionare gli LLM sono elevatissimi. Ciò porta ad alti costi, rendendo difficile per le organizzazioni più piccole o gli individui impegnarsi nello sviluppo degli LLM. In un evento del MIT lo scorso anno, il CEO di OpenAI Sam Altman ha dichiarato che il costo di addestramento di GPT-4 è stato di almeno 100 milioni di dollari.
La complessità degli strumenti e delle tecniche richieste per lavorare con gli LLM presenta anche una curva di apprendimento ripida per gli sviluppatori, limitandone ulteriormente l’accessibilità. È necessario un lungo lasso temporale per passare dall’addestramento alla costruzione e infine al dispiegamento dei modelli, che rallenta lo sviluppo e la sperimentazione in campo AI. Un recente documento dell’Università di Cambridge mostra che le aziende possono impiegare 90 giorni o più per dispiegare un singolo modello di machine learning (ML).

I problemi degli LLM

Un altro problema significativo degli LLM è la loro propensione alle allucinazioni, ovvero alla generazione di output che sembrano plausibili ma non sono effettivamente veri o reali. Questo deriva dal modo in cui gli LLM vengono addestrati a prevedere la prossima parola con un certo grado di probabilità, in base ai modelli dei dati di addestramento, piuttosto che avere una vera comprensione delle informazioni. Di conseguenza, gli LLM possono produrre affermazioni false presentandole come vere, o possono inventare fatti o combinare concetti non correlati in modi non cirretti. Rilevare e mitigare queste allucinazioni è una sfida continua nello sviluppo di modelli linguistici affidabili e degni di fiducia.
La grandezza e la natura degli LLM li rendo anche renderli difficili da correggere, senza contare che bias nei dati di addestramento e negli algoritmi possono portare a output discriminatori, inaccurati o addirittura dannosi. Come visto con Google Gemini, le tecniche utilizzate per rendere gli LLM “sicuri” e affidabili possono anche ridurre la loro efficacia. Inoltre, la natura centralizzata degli LLM solleva preoccupazioni sulla concentrazione di potere e controllo nelle mani di poche grandi aziende tecnologiche.

Cosa sono le allucinazioni AI

AI: piccoli modelli linguistici (SLM)

Gli SLM sono versioni più snelle degli LLM, con meno parametri e design più semplici. Richiedono meno dati e tempo di addestramento – cioè minuti o poche ore, rispetto a giorni o mesi necessari per gli LLM. Questo rende gli SLM più efficienti e semplici da implementare anche in locale o su dispositivi più piccoli.
Uno dei principali vantaggi degli SLM è la loro efficienza in applicazioni specifiche. Poiché hanno un campo di applicazione più ristretto e richiedono meno dati e possono essere regolati per svolgere più facilmente compiti particolari rispetto a modelli ampi e generalisti. Questa personalizzazione consente alle aziende di creare SLM che sono altamente efficaci per le loro specifiche esigenze, come l’analisi dei sentiment, il riconoscimento di oggetti definiti o il question answering specifico per la materia scelta. La natura specializzata degli SLM può portare a una migliore performance ed efficienza in queste applicazioni mirate rispetto all’uso di un modello più generale.

I vantaggi degli SLM per l’AI

Un altro vantaggio degli SLM è nella privacy e in una maggiore sicurezza. Con una base di codice più piccola e un’architettura più semplice, gli SLM sono più facili da analizzare e meno propensi ad avere vulnerabilità nascoste. Ciò li rende interessanti per applicazioni che gestiscono dati sensibili, come nel settore sanitario o finanziario, dove le violazioni dei dati potrebbero avere conseguenze molto gravi. Inoltre, i requisiti computazionali ridotti richiesti dagli SLM li rendono più adatti ad eseguire le loro operazioni localmente su dispositivi o su server on-premise, piuttosto che affidarsi all’infrastruttura cloud. Questo processamento locale può ulteriormente migliorare la sicurezza dei dati e ridurre il rischio di esposizione durante il trasferimento delle informazioni.
Gli SLM sono anche meno inclini a allucinazioni non rilevate all’interno del loro dominio specifico rispetto agli LLM. Gli SLM sono tipicamente addestrati su un insieme di dati più ristretto e mirato, specifico per il compito che gli è stato assegnato, il che aiuta il modello a imparare il vocabolario e le informazioni più rilevanti per il suo compito. Questo focus riduce la probabilità di generare output irrilevanti, non corretti o incoerenti. Con meno parametri e un’architettura più semplice, gli SLM sono meno inclini ad amplificare il rumore o gli errori nei dati di addestramento.

Gemma di Google

Google ha introdotto Gemma, una nuova serie di piccoli modelli linguistici progettati per essere più efficienti e user-friendly. Come altri SLM, i modelli Gemma possono funzionare sui vari dispositivi personali, come smartphone, tablet o laptop, senza la necessità di hardware speciale o ottimizzazione estensiva.
Dal rilascio di Gemma, i modelli addestrati hanno avuto più di 400.000 download lo scorso mese su HuggingFace, e stanno già emergendo alcuni progetti interessanti. Ad esempio, Cerule è un potente modello di immagine e linguaggio che combina Gemma 2B con SigLIP di Google, addestrato su un enorme set di dati di immagini e testo. Cerule sfrutta tecniche di selezione dei dati altamente efficienti, il che suggerisce che può raggiungere alte prestazioni senza richiedere una grande quantità di dati o di calcoli. Questo significa che Cerule potrebbe essere adatto per gli emergenti casi d’uso nel mondo edge computing.
Un altro esempio è CodeGemma, una versione specializzata di Gemma focalizzata sulla codifica e il ragionamento matematico. CodeGemma offre tre diversi modelli adattati per varie attività relative alla codifica, rendendo gli strumenti avanzati più accessibili ed efficienti per gli sviluppatori.

Il potenziale dei piccoli modelli linguistici

Mentre la comunità dell’IA continua a esplorare il potenziale dei piccoli modelli linguistici, diventano sempre più evidenti i vantaggi dei cicli di sviluppo più rapidi, della maggiore efficienza e capacità di adattare i modelli a esigenze specifiche dei piccoli SLM. Gli SLM sono pronti a democratizzare l’accesso all’IA e a guidare l’innovazione in vari settori, consentendo soluzioni mirate ed economicamente vantaggiose.

AI: piccolo è meglio, i vantaggi degli SLM contro gli LLM - Ultima modifica: 2024-04-14T17:49:04+00:00 da Francesco Marino

Francesco Marino

Giornalista esperto di tecnologia, da oltre 20 anni si occupa di innovazione, mondo digitale, hardware, software e social. È stato direttore editoriale della rivista scientifica Newton e ha lavorato per 11 anni al Gruppo Sole 24 Ore. È il fondatore e direttore responsabile di Digitalic