LipNet, il software che legge il labiale con una precisione da fantascienza

LipNet: i ricercatori di Oxford stanno sviluppando un programma in grado di leggere il labiale con un’accuratezza che supera quella degli umani

LipNet: gli scienziati dell’Università di Oxford stanno sviluppando un software che è in grado di leggere le labbra con un’accuratezza del 93.4%. Un tale risultato sorpassa di misura quello dei professionisti più esperti.

I ricercatori hanno dichiarato che il programma LipNet ha un potenziale pratico enorme e che potrebbe servire per il miglioramento degli apparecchi acustici, per consentire conversazioni in luoghi rumorosi oppure per aggiungere i dialoghi ai film muti. Ma potrebbe avere anche applicazioni più sospette come, ad esempio, la sorveglianza di massa dei cittadini che parlano tra loro in pubblico oppure consentire a chiunque di captare conversazioni private.

I ricercatori, che sono in stretta collaborazione con la divisione di Google impegnata nello studio dell’intelligenza artificiale – che si chiama DeepMind – hanno allenato il software con più di 30.000 video di test che avevano come oggetto di analisi una serie di frasi. Ad alcuni movimenti delle labbra il software è stato in grado di far corrispondere alcune delle parole che venivano pronunciate.
In seguito, i ricercatori hanno fatto delle prove con altri video e LipNet ha dimostrato un’accuratezza pari al 93.4% un risultato strepitoso se messo a confronto con quelli ottenuti da altri programmi per la lettura del labiale e il 52.3% ottenuto dai test su studenti audiolesi.

LipNet è in grado di comprendere le frasi intere e ciò consente la trasposizione in parole per mezzo di contesti, anziché la decifrazione di fonemi o parole individualmente. E il software non ha bisogno che un video venga frammentato per poter essere processato.

Il software non è ancora pronto per il rilascio. La fase di test e di ricerca, per ora, ha coperto soltanto una determinata tipologia di filmati, nei quali le parole erano strutturate con set specifici: comandi, colori, proporzioni, lettere, digitazioni, avverbi, come ad esempio per una frase come “posiziona il blu in M 1 presto” e 34 differenti parlanti.

Al fine di consentirgli di comprendere frasi più complesse con un maggior numero di variabili, così come un o spettro più ampio di individui con diversi accenti tra loro, ci sarà bisogno di mettergli a disposizione un archivio di video ben più nutrito. Si tratta sempre del problema condiviso da chiunque si occupi di AI: i dati affinché possano essere rielaborati accuratamente e qualitativamente, devono essere offerti in quantitativi enormi.


LipNet, il software che legge il labiale con una precisione da fantascienza - Ultima modifica: 2016-11-11T09:57:28+00:00 da Francesco Marino

Giornalista esperto di tecnologia, da oltre 20 anni si occupa di innovazione, mondo digitale, hardware, software e social. È stato direttore editoriale della rivista scientifica Newton e ha lavorato per 11 anni al Gruppo Sole 24 Ore. È il fondatore e direttore responsabile di Digitalic

Arduino

Non rimanere indietro, iscriviti ora

Ricevi in tempo reale le notizie del digitale

Controlla la tua inbox per confermare l'iscrizione.
Qui trovi la nostra Privacy Policy

Grazie! Ora fai parte di Digitalic!