Forse l’intelligenza artificiale non è così intelligente come ci hanno raccontato. Uno studio evidenzia di fronte a semplici domande di logica i modelli avanzati come GPT-3 e GPT-4, Gemini, Meta 3, crollano. Solo GPT-4o mostra prestazioni appena accettabili
Siamo abituati a rimanere stupiti dalle incredibili capacità dell’Intelligenza artificiale, ma forse ha ragione John Searle, non è intelligente come sembra.
La domanda che mette in ginocchio tutte le AI
Un affascinante nuovo studio scientifico sull’intelligenza artificiale realizzato da LAION e dai ricercatori Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti e Jenia Jitsev ha scoperto che perfino i modelli più avanzati di linguaggi di grandi dimensioni (LLMs) sono messi in difficoltà da una semplice domanda di logica – una scoperta che, secondo i ricercatori, mette in discussione l’essenza stessa dell’AI e mette in serio dubbio la sua intelligenza, almeno quella che raccontano i suoi creatoti
Lo studio, che non è ancora stato sottoposto a revisione, ha pisto una semplice domanda alle AI: il problema di “Alice nel Paese delle Meraviglie” — o problema AIW (alice in Wonderland). Si tratta di un semplice ragionamento: “Alice ha [X] fratelli e ha anche [Y] sorelle. Quante sorelle ha il fratello di Alice?” (I ricercatori hanno utilizzato alcune versioni diverse della domanda, ad esempio modificando le cifre X e Y o alterando il linguaggio del prompt per includere alcune richieste in più, ma il processo di ragionamento di base richiesto per risolvere il problema è rimasto lo stesso.)
Sebbene il problema richieda un po’ di riflessione, non è esattamente difficile per un essere umano. (La risposta, naturalmente, è quante sorelle ha Alice, più Alice stessa. Quindi, se Alice avesse tre fratelli e una sorella, ogni fratello avrebbe due sorelle.)
Ma quando i ricercatori hanno posto la domanda alle AI più conosciute come GPT-3, GPT-4 e GPT-4o di OpenAI, Claude 3 Opus di Anthropic, Gemini di Google e i modelli Llama di Meta, così come Mextral di Mistral AI, Dbrx di Mosaic e Command R+ di Cohere — hanno scoperto che i non erano in grado di rispondere a questa semplice domanda… sconcertante.
Solo un modello, il nuovissimo GPT-4o, ha ottenuto un tasso di successo che, secondo i voti scolastici, era tecnicamente sufficiente (65% di risposte esatte, un sei stiracchiato insomma).
Le risposte sbagliate delle AI
Queste risposte errate costituiscono un “fallimento preoccupante nell’affidabilità e nelle capacità cognitive dei modelli di intelligenza artificiale più avanzati attualmente in uso”, sostengono i ricercatori di LAION nel loro studio. Ponendo un problema di senso comune, semplice, breve, convenzionale, formulato in un linguaggio naturale conciso, facilmente risolvibile dagli esseri umani le intelligenza artificiali crollano. “Il fallimento delle è sorprendente, anche preche questi modelli dimostrano anche una grande sicurezza nelle loro risposte errate e ricorrono a spiegazioni illogiche o confuse per difendere e sostanziare la pretesa correttezza delle loro conclusioni chiaramente errate, mascherandole abilmente con vari ragionamenti” prosegue la pubblicazione.
Insomma un comportamento preoccupante… se lo pensiamo a quesiti più importanti di “quante sorelle ha il fratello di Alice”…
La ricerca contiene decine di esempi di vari modelli di Ai che sbagliano risposta a fronte di diverse variazioni del problema “Alice e i suoi fratelli”, ma ci sono anche alcune interazioni degne di nota. Per esempio la conversazione con Llama 3 di Meta a fronte della della versione più semplice della domanda: “Alice ha quattro fratelli e ha anche una sorella. Quante sorelle ha il fratello di Alice?”
La risposta, naturalmente, è due sorelle. Llama3 non ha indovinato correttamente, ma è stato originale.
“Un classico rompicapo di pensiero laterale!
Scomponiamolo:
Alice ha quattro fratelli.
Alice ha anche una sorella (se stessa).
Quindi, ognuno dei fratelli di Alice ha… (rullo di tamburi) …una sorella, che è Alice stessa!
Pertanto, la risposta è: ognuno dei fratelli di Alice ha una sorella”.
Una versione più complessa del problema è stata sottoposta a Claude 3 Opus: “Alice ha 4 sorelle e ha anche 1 fratello. Quante sorelle ha il fratello di Alice? Prima di fornire la risposta a questo problema, pensa attentamente e verifica due volte il percorso verso la soluzione corretta per eventuali errori. Fornisci quindi la risposta finale nel seguente formato: ‘### Risposta: ‘”
Questa volta, la risposta è cinque sorelle. Come richiesto, il modello ha mostrato il suo lavoro, affermando di aver ricontrollato la sua risposta per imprecisioni. Eppure, era ancora sbagliato:
Riflettiamo su questo problema passo dopo passo:
- Alice ha 4 sorelle e 1 fratello.
- Il fratello di Alice fa parte della stessa famiglia di Alice.
- Tutte le sorelle di Alice sono anche sorelle di suo fratello.
- Pertanto, il fratello di Alice ha lo stesso numero di sorelle che ha Alice, che sono 4.
Ho ricontrollato il ragionamento e non riesco a trovare errori nella logica.
Risposta: Il fratello di Alice ha 4 sorelle
Secondo il documento, il nuovo modello GPT-4o di OpenAI ha ottenuto il tasso di successo più alto, rispondendo correttamente alla domanda quasi il 65 percento delle volte. Ma questo un risultato appena sufficiente, mentre il modello che si piazza al secondo posto è Claude 3 Opus, con un tasso di successo del 43 percento. Il modello Llama 2-7b di Meta — i ricercatori hanno testato vari modelli Llama — è arrivato al 30 percento, mentre Gemini Pro di Google ha registrato un misero tasso di successo dello 0,8 percento.
Benchmark sulle AI da rivedere
Ciò che è più interessante, tuttavia, è come questi numeri si confrontino con altri benchmark del settore — sostanzialmente, i risultati dei test standardizzati per modelli di AI — usati per misurare l’efficacia dei modelli di AI.
Gli scienziati prestano particolare attenzione a un benchmark chiamato MMLU, o “Multi-task Language Understanding”, che è progettato per valutare la capacità di un AI di risolvere problemi. Come notano i ricercatori, GPT-4o, Claude 3 Opus, Llama 2-7b e Gemini Pro hanno ricevuto rispettivamente punteggi ai test MMLU di circa l’88 percento, l’87 percento, il 64 percento e il 72 percento. Queste sono cifre molto diverse rispetto ai risultati offerti dalla domanda “Alice e i suoi fratelli”, e secondo gli scienziati, questi nuovi risultati dovrebbero portare a riconsiderare i processi con cui valutiamo le capacità di risoluzione dei problemi e di ragionamento dei modelli linguistici.
“Tutti i modelli testati riportano punteggi elevati su vari benchmark standardizzati che affermano di testare la funzione di ragionamento”, scrivono i ricercatori nel documento, sostenendo che le loro osservazioni “suggeriscono che tali benchmark non riflettono adeguatamente i deficit nel ragionamento di base di tali modelli.”
Questo nuovo documento di LAOIN non è stato ancora sottoposto a revisione paritaria. Nonostante ciò, pone alcune domande importanti su come i modelli e i prodotti AI vengano testati e valutati — e, in ultima analisi, commercializzati.