LipNet, il software che legge il labiale con una precisione da fantascienza

LipNet: gli scienziati dell’Università di Oxford stanno sviluppando un software che è in grado di leggere le labbra con un’accuratezza del 93.4%. Un tale risultato sorpassa di misura quello dei professionisti più esperti.

I ricercatori hanno dichiarato che il programma LipNet ha un potenziale pratico enorme e che potrebbe servire per il miglioramento degli apparecchi acustici, per consentire conversazioni in luoghi rumorosi oppure per aggiungere i dialoghi ai film muti. Ma potrebbe avere anche applicazioni più sospette come, ad esempio, la sorveglianza di massa dei cittadini che parlano tra loro in pubblico oppure consentire a chiunque di captare conversazioni private.

I ricercatori, che sono in stretta collaborazione con la divisione di Google impegnata nello studio dell’intelligenza artificiale – che si chiama DeepMind – hanno allenato il software con più di 30.000 video di test che avevano come oggetto di analisi una serie di frasi. Ad alcuni movimenti delle labbra il software è stato in grado di far corrispondere alcune delle parole che venivano pronunciate.
In seguito, i ricercatori hanno fatto delle prove con altri video e LipNet ha dimostrato un’accuratezza pari al 93.4% un risultato strepitoso se messo a confronto con quelli ottenuti da altri programmi per la lettura del labiale e il 52.3% ottenuto dai test su studenti audiolesi.

LipNet è in grado di comprendere le frasi intere e ciò consente la trasposizione in parole per mezzo di contesti, anziché la decifrazione di fonemi o parole individualmente. E il software non ha bisogno che un video venga frammentato per poter essere processato.

Il software non è ancora pronto per il rilascio. La fase di test e di ricerca, per ora, ha coperto soltanto una determinata tipologia di filmati, nei quali le parole erano strutturate con set specifici: comandi, colori, proporzioni, lettere, digitazioni, avverbi, come ad esempio per una frase come “posiziona il blu in M 1 presto” e 34 differenti parlanti.

Al fine di consentirgli di comprendere frasi più complesse con un maggior numero di variabili, così come un o spettro più ampio di individui con diversi accenti tra loro, ci sarà bisogno di mettergli a disposizione un archivio di video ben più nutrito. Si tratta sempre del problema condiviso da chiunque si occupi di AI: i dati affinché possano essere rielaborati accuratamente e qualitativamente, devono essere offerti in quantitativi enormi.

LipNet, il software che legge il labiale con una precisione da fantascienza - Ultima modifica: 2016-11-11T09:57:28+00:00 da Francesco Marino

Francesco Marino

Giornalista esperto di tecnologia, da oltre 20 anni si occupa di innovazione, mondo digitale, hardware, software e social. È stato direttore editoriale della rivista scientifica Newton e ha lavorato per 11 anni al Gruppo Sole 24 Ore. È il fondatore e direttore responsabile di Digitalic

Next Backpack di Facebook, lo switch di seconda generazione »

Previous « Mirko Poggi, Lenovo: "#differentisbetter"

Published by

Francesco Marino

9 anni ago

AI slop, il 52% del web è ormai generato dall’AI: cosa significa per aziende, SEO e cultura

AI slop, parola dell'anno 2025 di Merriam-Webster e Macquarie. Il 52% dei nuovi articoli online…

22 ore ago

intelligenza artificiale

AI Act, conto alla rovescia: dal 2 agosto 2026 scattano le sanzioni

AI Act, sanzioni fino a 35 milioni di euro o il 7% del fatturato globale.…

1 giorno ago

intelligenza artificiale

ChatGPT Images 2.0: cos’è, come funziona e come usarlo al meglio

ChatGPT Images 2.0 è il nuovo generatore immagini di OpenAI con ragionamento integrato e fino…

1 giorno ago

Tech-News

Tim Cook si dimette da CEO di Apple, chi è John Ternus alla guida della prima Apple senza Steve Jobs

Tim Cook si è dimesso da CEO di Apple. Dal primo settembre 2026 al suo…

2 giorni ago

intelligenza artificiale

Eddie Dalton, il bluesman che non esiste ma domina iTunes

Eddie Dalton ha conquistato undici posizioni nella Top 100 e il terzo posto negli album,…

1 settimana ago

intelligenza artificiale

Claude Design: cos’è, come funziona e perché ha già cambiato il modo di fare design

Claude Design è lo strumento di Anthropic che trasforma un prompt in prototipi interattivi, slide…

1 settimana ago

Via Italia 50, 20900 Monza (MB) - C.F. e Partita IVA: 03339380135

Reg. Trib. Milano n. 409 del 21/7/2011 - ROC n. 21424 del 3/8/2011

LipNet, il software che legge il labiale con una precisione da fantascienza

Francesco Marino

Recent Posts

AI slop, il 52% del web è ormai generato dall’AI: cosa significa per aziende, SEO e cultura

AI Act, conto alla rovescia: dal 2 agosto 2026 scattano le sanzioni

ChatGPT Images 2.0: cos’è, come funziona e come usarlo al meglio

Tim Cook si dimette da CEO di Apple, chi è John Ternus alla guida della prima Apple senza Steve Jobs

Eddie Dalton, il bluesman che non esiste ma domina iTunes

Claude Design: cos’è, come funziona e perché ha già cambiato il modo di fare design

Digitalic © MMedia Srl

LipNet, il software che legge il labiale con una precisione da fantascienza

Francesco Marino

Related Post

Recent Posts

AI slop, il 52% del web è ormai generato dall’AI: cosa significa per aziende, SEO e cultura

AI Act, conto alla rovescia: dal 2 agosto 2026 scattano le sanzioni

ChatGPT Images 2.0: cos’è, come funziona e come usarlo al meglio

Tim Cook si dimette da CEO di Apple, chi è John Ternus alla guida della prima Apple senza Steve Jobs

Eddie Dalton, il bluesman che non esiste ma domina iTunes

Claude Design: cos’è, come funziona e perché ha già cambiato il modo di fare design

Digitalic © MMedia Srl