intelligenza artificiale

VALL-E 2: la clonazione AI della voce così perfetta che non si può usare

VALL-E 2 è l’ultima innovazione nei modelli di linguaggio a codec neurale, che segna una pietra miliare nella sintesi vocale zero-shot (TTS) e raggiunge la perfetta parità con la voce umana per la prima volta, si legge nel documento di ricerca. Il sistema si basa sul suo predecessore, VALL-E, introdotto all’inizio del 2023.

VALL-E 2: la clonazione della voce indistinguibile da quella vera

Ciò che distingue VALL-E 2 da altre tecniche di clonazione della voce è il metodo “Repetition Aware Sampling” e la commutazione adattiva tra tecniche di campionamento. Queste strategie migliorano la coerenza e risolvono i problemi comuni nella generazione vocale tradizionale.

“VALL-E 2 sintetizza costantemente parlato di alta qualità, anche per frasi complesse o ripetitive,” hanno scritto i ricercatori, sottolineando che questa tecnologia potrebbe aiutare a dare voce alle persone che hanno perso la capacità di parlare.

Per quanto impressionante sia, tuttavia, il sistema non sarà reso disponibile al pubblico.

Clonazione della voce troppo pericolosa

“Attualmente, non abbiamo piani per incorporare VALL-E 2 in un prodotto o renderlo accessibile al pubblico,” ha dichiarato Microsoft nel suo documento etico, evidenziando i rischi di imitazione della voce senza consenso e l’uso di voci AI convincenti in truffe e altre attività criminali.

Il team di ricerca ha sottolineato la necessità di un metodo standard per marcare digitalmente le generazioni AI, riconoscendo che rilevare contenuti generati da AI con alta precisione rimane una sfida.

“Se il modello fosse utilizzato per parlanti non conosciuti nel mondo reale, dovrebbe essere incluso un protocollo per garantire che il parlante approvi l’uso della sua voce e un metodo per rilevare il parlato sintetizzato,” hanno scritto.

Detto ciò, i risultati di VALL-E 2 sono estremamente accurati rispetto ad altri strumenti. In una serie di test condotti dal team di ricerca, VALL-E 2 ha superato i benchmark di livello umano in termini di robustezza, naturalezza e somiglianza del parlato generato.

VALL-E 2: solo 3 secondi di parlato per imitare la voce alla perfezione

VALL-E 2 è riuscito a ottenere questi risultati usando solo 3 secondi di audio. Il team di ricerca ha osservato che “l’uso di campioni di parlato di 10 secondi ha portato a una qualità ancora migliore.”

Questa di Microsoft non è l’unica azienda di intelligenza artificiale che è stata sviluppata senza rilasciarla al pubblico. Anche Voicebox di Meta e Voice Engine di OpenAI hanno avuto lo stesso destino

“Ci sono molti casi d’uso entusiasmanti per i modelli di parlato generativo, ma a causa dei potenziali rischi di abuso, non stiamo rendendo disponibile pubblicamente il modello o il codice di Voicebox in questo momento,” ha detto un portavoce di Meta AI l’anno scorso.

Anche OpenAI ha spiegato che sta cercando di affrontare prima le questioni di sicurezza prima di lanciare il suo modello di voci sintetiche.

“In linea con il nostro approccio alla sicurezza AI e ai nostri impegni volontari, stiamo scegliendo di mostrare in anteprima ma non rilasciare ampiamente questa tecnologia in questo momento,” ha spiegato OpenAI in un post ufficiale sul blog.

Questa richiesta di linee guida etiche si sta diffondendo in tutta la comunità AI, soprattutto perché i regolatori stanno iniziando a sollevare preoccupazioni riguardo l’impatto dell’AI generativa sulle nostre vite quotidiane.

VALL-E 2: la clonazione AI della voce così perfetta che non si può usare - Ultima modifica: 2024-07-07T12:08:08+00:00 da Francesco Marino

Francesco Marino

Giornalista esperto di tecnologia, da oltre 20 anni si occupa di innovazione, mondo digitale, hardware, software e social. È stato direttore editoriale della rivista scientifica Newton e ha lavorato per 11 anni al Gruppo Sole 24 Ore. È il fondatore e direttore responsabile di Digitalic

Next Exordi è la piattaforma italiana che unisce intelligenza artificiale e creazione di contenuti »

Previous « SpaceX Polaris Dawn: la prima passeggiata spaziale a pagamento

Published by

Francesco Marino

2 anni ago

BlueIt AI Accelerator: nel castello Visconteo l’intelligenza artificiale impara a difendere il sapere

La quarta edizione dell'AI Accelerator di BlueIT si è svolta nelle mura del Castello Visconteo…

2 giorni ago

intelligenza artificiale

AI slop, il 52% del web è ormai generato dall’AI: cosa significa per aziende, SEO e cultura

AI slop, parola dell'anno 2025 di Merriam-Webster e Macquarie. Il 52% dei nuovi articoli online…

5 giorni ago

intelligenza artificiale

AI Act, conto alla rovescia: dal 2 agosto 2026 scattano le sanzioni

AI Act, sanzioni fino a 35 milioni di euro o il 7% del fatturato globale.…

5 giorni ago

intelligenza artificiale

ChatGPT Images 2.0: cos’è, come funziona e come usarlo al meglio

ChatGPT Images 2.0 è il nuovo generatore immagini di OpenAI con ragionamento integrato e fino…

5 giorni ago

Tech-News

Tim Cook si dimette da CEO di Apple, chi è John Ternus alla guida della prima Apple senza Steve Jobs

Tim Cook si è dimesso da CEO di Apple. Dal primo settembre 2026 al suo…

6 giorni ago

intelligenza artificiale

Eddie Dalton, il bluesman che non esiste ma domina iTunes

Eddie Dalton ha conquistato undici posizioni nella Top 100 e il terzo posto negli album,…

2 settimane ago

Via Italia 50, 20900 Monza (MB) - C.F. e Partita IVA: 03339380135

Reg. Trib. Milano n. 409 del 21/7/2011 - ROC n. 21424 del 3/8/2011

VALL-E 2: la clonazione AI della voce così perfetta che non si può usare

VALL-E 2: la clonazione della voce indistinguibile da quella vera

Clonazione della voce troppo pericolosa

VALL-E 2: solo 3 secondi di parlato per imitare la voce alla perfezione

Francesco Marino

Recent Posts

BlueIt AI Accelerator: nel castello Visconteo l’intelligenza artificiale impara a difendere il sapere

AI slop, il 52% del web è ormai generato dall’AI: cosa significa per aziende, SEO e cultura

AI Act, conto alla rovescia: dal 2 agosto 2026 scattano le sanzioni

ChatGPT Images 2.0: cos’è, come funziona e come usarlo al meglio

Tim Cook si dimette da CEO di Apple, chi è John Ternus alla guida della prima Apple senza Steve Jobs

Eddie Dalton, il bluesman che non esiste ma domina iTunes

Digitalic © MMedia Srl

VALL-E 2: la clonazione AI della voce così perfetta che non si può usare

VALL-E 2: la clonazione della voce indistinguibile da quella vera

Clonazione della voce troppo pericolosa

VALL-E 2: solo 3 secondi di parlato per imitare la voce alla perfezione

Francesco Marino

Related Post

Recent Posts

BlueIt AI Accelerator: nel castello Visconteo l’intelligenza artificiale impara a difendere il sapere

AI slop, il 52% del web è ormai generato dall’AI: cosa significa per aziende, SEO e cultura

AI Act, conto alla rovescia: dal 2 agosto 2026 scattano le sanzioni

ChatGPT Images 2.0: cos’è, come funziona e come usarlo al meglio

Tim Cook si dimette da CEO di Apple, chi è John Ternus alla guida della prima Apple senza Steve Jobs

Eddie Dalton, il bluesman che non esiste ma domina iTunes

Digitalic © MMedia Srl