ChatGPT-5.4 supera l’uomo nei task desktop: e adesso?

GPT-5.4 raggiunge il 75% su OSWorld-Verified, superando i dati fatti segnare dagli umani del 72,4% nei task desktop. Cosa significa quando l’AI supera l’uomo nella produttività quotidiana? Analisi del benchmark, limiti reali, impatto sul lavoro e opportunità per il canale IT italiano.

Settantacinque virgola zero per cento, GPT-5.4 raggiunge il 75% su OSWorld-Verified, superando i dati fatti segnare dagli umani del 72,4% nei task desktop: è il tasso di successo di GPT-5.4 su OSWorld-Verified, il benchmark che misura la capacità di un’intelligenza artificiale di navigare un desktop reale (screenshot, mouse, tastiera) ed eseguire task di produttività come farebbe un impiegato in carne e ossa. Il dato umano? Fermo al 72,4%. Significa che una macchina, per la prima volta nella storia, completa compiti informatici quotidiani con maggiore affidabilità di un operatore esperto.

Il salto è brutale. GPT-5.2, il modello precedente, si fermava al 47,3%. In una sola generazione, OpenAI ha quasi raddoppiato le prestazioni. Non parliamo di un gioco di parole o di un quiz accademico. Parliamo di aprire fogli di calcolo, compilare moduli, confrontare prezzi su cinquanta siti fornitori, costruire una presentazione con dati reali. Lavoro vero. Roba che fino a ieri richiedeva mani, occhi e un contratto.

Indice dei contenuti

Cos’è OSWorld e cosa misura davvero il benchmark

Cos’è esattamente OSWorld? Nato nel 2024 all’Università di Hong Kong, è il primo ambiente di test scalabile basato su macchine virtuali reali: Ubuntu, Windows, macOS. Trecentosessantanove task derivati da flussi di lavoro autentici, non esercizi da laboratorio. L’agente riceve un’istruzione, osserva lo schermo, muove il cursore, digita. Esattamente come un essere umano davanti al monitor. La versione Verified, rilasciata nel luglio 2025, ha corretto oltre trecento problemi di ambiguità nelle istruzioni e nelle funzioni di valutazione, rendendo i risultati più comparabili.

Attenzione, però. I ricercatori di Epoch AI hanno messo il dito nella piaga: molti task sono relativamente semplici. Meno di dieci passaggi, pochi minuti per un umano. Circa il quindici per cento si può risolvere dal terminale, senza toccare l’interfaccia grafica. Un altro trenta per cento ammette scorciatoie via script Python. Il benchmark non è stabile nel tempo: le istruzioni vengono aggiornate in continuazione, il dieci per cento dei task dipende da dati web che cambiano. Confrontare i punteggi di epoche diverse diventa un esercizio scivoloso.

Significa che il sorpasso è un bluff? No. Significa che va letto con le lenti giuste. GPT-5.4 non è un impiegato universale. È un esecutore formidabile di task strutturati, ripetitivi, ben definiti. Quelli che riempiono le giornate di milioni di lavoratori della conoscenza.

L’AI supera l’uomo: non solo desktop, anche lavoro professionale

Non è solo desktop. Su GDPval, il benchmark interno di OpenAI che testa quarantaquattro professioni dalla contabilità all’ingegneria, GPT-5.4 eguaglia o supera i professionisti nell’83% dei confronti. Nei task di modellazione finanziaria da analista junior, passa dal 68,4% di GPT-5.2 all’87,3%. Le presentazioni generate dal modello vengono preferite dai valutatori umani nel 68% dei casi. I claim fattuali errati calano del 33%.

La corsa, naturalmente, non è solitaria. Claude Opus 4.6 di Anthropic domina ancora il coding su SWE-Bench Verified con un 80,8%. Gemini 3.1 Pro di Google vince sul ragionamento astratto e costa una frazione. Nessun modello spazza via tutti gli altri. Marzo 2026 somiglia a un triathlon: chi vince nella corsa perde nel nuoto. L’indice di Artificial Analysis mette GPT-5.4 e Gemini 3.1 Pro alla pari a 57 punti, con Opus appena dietro a 53. La differenza tra i frontrunner si misura in decimali, non in ordini di grandezza. La cadenza di rilascio racconta qualcosa di più profondo: GPT-5.3 Instant lunedì, GPT-5.4 giovedì. Due modelli in una settimana. OpenAI scommette che restare visibili nel ciclo delle notizie conti quanto il vantaggio tecnico. Forse ha ragione.

Automazione del lavoro: chi perde e chi guadagna nel 2026

Ora viene la domanda che nessuno vuole sentire. Se una macchina naviga un desktop meglio di te, che fine fa il tuo lavoro?

La risposta onesta è: dipende. Uno studio del MIT stima che l’11,7% delle occupazioni potrebbe già essere automatizzato con l’AI attuale. I venture capitalist intervistati da TechCrunch a fine 2025 non hanno usato giri di parole: il 2026 sarà l’anno in cui i budget aziendali si sposteranno dal lavoro umano all’AI. Jason Mendel di Battery Ventures parla di agenti software che non si limitano a rendere più produttivi i lavoratori esistenti, ma automatizzano il lavoro stesso.

Dall’altra parte della barricata, Ahmad Katanforoosh di Workera ribalta il tavolo: il 2026 sarà l’anno degli umani, non delle macchine. L’AI non funziona ancora in modo autonomo come pensavamo. Il benchmark APEX-Agents di Mercor, dove GPT-5.4 è primo, lo conferma indirettamente: anche il modello migliore fallisce la maggior parte dei task professionali complessi al primo tentativo. Il co-fondatore di Mercor, Brendan Foody, lo ha detto senza filtri: è come un tirocinante che azzecca una risposta su quattro.

Ecco il paradosso. La macchina batte l’uomo nei micro-task. L’uomo batte la macchina nei macro-task. Un agente AI può aprire cinquanta siti, estrarre prezzi, costruire un foglio comparativo in minuti. Ma non sa decidere se quel fornitore è affidabile, se il prezzo nasconde una fregatura, se il contratto ha clausole tossiche. Il giudizio resta umano. Per ora.

Agenti AI e canale IT italiano: terremoto e opportunità

Per il canale IT italiano, questo scenario è un terremoto e un’opportunità nello stesso istante. Il terremoto: ogni rivenditore, system integrator, MSP che oggi fattura sulla configurazione, sulla migrazione, sul supporto di primo livello deve chiedersi quanto di quel lavoro sopravviverà a un agente AI capace di operare su un desktop in autonomia. Le stime di Forrester parlano chiaro: le cinque principali piattaforme HCM offriranno entro l’anno funzionalità di gestione dei “dipendenti digitali”. Non è fantascienza, ma un listino prezzi.

L’opportunità: chi capisce prima degli altri che il valore si sposta verso l’alto (governance, integrazione, sicurezza, orchestrazione di workflow ibridi umano-macchina) conquista il terreno che si libera. Google Cloud parla di agenti AI come “colleghi digitali”. Microsoft li chiama “co-worker”. Il protocollo A2A tra Salesforce e Google Cloud punta a far collaborare agenti di piattaforme diverse. Il Model Context Protocol di Anthropic, donato alla Linux Foundation, sta diventando lo standard di connessione tra agenti e strumenti esterni. Chi padroneggia questi protocolli vende consulenza, non scatole.

G42, il colosso emiratino dell’AI, ha già annunciato l’ingresso formale di agenti AI nel proprio organigramma aziendale. Non come strumenti, come ruoli. Con governance, metriche di performance, accountability. È il segnale più nitido di dove va il mercato: non si compra un software, si assume un collega digitale e qualcuno deve configurarlo, addestrarlo, monitorarlo, integrarlo nei processi, servono competenze nuove.

Sicurezza degli agenti AI: il nuovo fronte per il canale

Un agente AI che controlla mouse e tastiera è un vettore di attacco formidabile. Pensateci: un software che vede lo schermo, clicca dove vuole, digita credenziali. Se compromesso, è il cavallo di Troia perfetto. Vasu Jakkal di Microsoft Security lo dice senza mezzi termini: ogni agente deve avere protezioni di sicurezza equivalenti a quelle di un dipendente umano. Identità verificata, accesso limitato ai dati strettamente necessari, monitoraggio continuo delle azioni, protezione attiva dalle minacce esterne. CB Insights prevede che il red teaming continuo diventerà standard per ogni deployment di agenti AI in azienda. Non è un optional. È una condizione di sopravvivenza. Con l’EU AI Act entrato in vigore, il quadro normativo europeo aggiunge un ulteriore livello di complessità per chi sviluppa e distribuisce questi sistemi. Servono competenze ibride, a cavallo tra cybersecurity e governance dell’AI. Servono partner che le abbiano. Chi le costruisce oggi, domani avrà la coda fuori dalla porta.

ChatGPT-5.4 supera l’uomo nei task desktop: e adesso? - Ultima modifica: 2026-03-14T10:53:35+00:00 da Francesco Marino

Francesco Marino

Giornalista esperto di tecnologia, da oltre 20 anni si occupa di innovazione, mondo digitale, hardware, software e social. È stato direttore editoriale della rivista scientifica Newton e ha lavorato per 11 anni al Gruppo Sole 24 Ore. È il fondatore e direttore responsabile di Digitalic