Suoni e AI: perché Audio Analytic rompe migliaia di finestre?

Il team di ricercatori Audio Analytic ha messo insieme migliaia di finestre e porte registrando il suono distintivo di ogni tipo di legno e vetro.

Xerox VelocityReseller Marzo 2025 (solo clic)

In un hangar insonorizzato di una base della RAF a Nord di Cambridge, nel Regno Unito, Chris Mitchell e i suoi colleghi di Audio Analytic si danno da fare con un martello pneumatico per rompere vetri e finestre.
Il team di ricercatori ha messo insieme migliaia di finestre e porte, tutte diverse tra loro per forma e dimensioni, facendole sbattere una ad una registrando il suono distintivo di ogni tipo di legno e vetro. A volte fanno oscillare mazze o picconi, a volte scagliano a terra dei mattoni. “Abbiamo sottovalutato completamente il disastro che avremmo fatto e quanto sarebbe stato faticoso produrre suoni e ripulire poi tutto” racconta Mitchell.
Benvenuti nell’ultima frontiera dell’Intelligenza Artificiale.

Mitchell è il CEO e il fondatore di Audio Analytic, una startup con base a Cambridge che si sta impegnando nel training di un sistema di Machine Learning in grado di riconoscere il suono di un vetro che viene rotto. Ma non si tratta soltanto del vetro, la società sta insegnando al computer a comprendere anche altri suoni che potrebbero rivelarsi importanti per gli umani come, ad esempio, un allarme antincendio, cani che abbaiano o bambini che strillano.

L’idea parte dalla volontà di costruire la capacità di riconoscere suoni, ma distinguendo un bicchiere che cade accidentalmente da una finestra ridotta in frantumi volutamente, al fine di integrare questo riconoscimento alle case smart, in modo da avvisare in casi di irruzione in casa o nel caso in cui un bambino inizi a piangere in un’altra stanza.

Negli ultimi anni, i computer sono diventati sempre più bravi a capire il mondo a colpo d’occhio. Alcuni sistemi di AI sono persino più efficaci degli umani nel riconoscere alcuni oggetti, in particolare i volti. Ma a parte il riconoscimento vocale – che è al centro di servizi come Siri di Apple, Home di Google e Alexa di Amazon – al riconoscimento del suono estremamente preciso è stata data poca attenzione fino ad ora.

Mitchell vuole cambiare la situazione: “Quello cui stiamo lavorando è un nuovo campo di AI che chiamiamo audio-intelligenza artificiale. E si tratta di un settore che non è mai stato affrontato in modo significativo fino ad ora.”

Audio Analytic è una delle società che si occupano di sistemi di machine learning che individuano nei suoni determinati schemi. La berlinese Uberchord sta sviluppando un sistema di AI in grado di aiutare le persone a imparare a suonare la chitarra: ascolta chi suona e gli indica quando ha sbagliato a posizionare la mano sul manico o se ha suonato la corda sbagliata.

La Cambridge Consultants, ha insegnato ad un sistema AI a distinguere diversi generi di musica suonata al pianoforte, come il ragtime o la musica barocca. Il sistema, che si chiama Aficionado, è stato allenato attraverso qualche centinaio di ore di registrazioni di pianoforte, che includevano musicisti professionisti, ma anche esercizi amatoriali presi da YouTube, mettendo alla prova il sistema aggiungendo la complessità delle esibizioni dal vivo, piene di applausi, voci e rumori. Ma Aficionado ha mire più alte, infatti punta ad ignorare i fattori irrilevanti come tempo, volume o tono, identificando invece errori nell’ambito delle telecomunicazioni.

Audio Analytic, in generale, ha ambizioni più grandi. Mitchell aggiunge: “Vogliamo creare una tassonomia di tutti i suoni e questa è un’iniziativa enorme”. La Audio Analytic sta anche lavorando ad un rilevatore di anomalie, raccoglie i suoni che sembrano inusuali o inattesi come un oggetto che cade, il sibilo di un tubo dell’acqua che perde. Vorrebbero aggiungere gli allarmi delle auto e forse – per il mercato americano – i suoni degli spari. Audio Analytic punta a brevettare questi sistemi e a fornirli a chi si occupa di dispositivi per case smart.

Secondo Nina Bhatia, direttore di Hive una società che si occupa di termostati e illuminazione smart, la capacità di distinguere suoni diversi tra loro è importante “Diventa vitale per la tecnologia destinata alle case smart, interpretare e individuare un’ampia gamma di suoni di un determinato ambiente. In questo modo sarà immediato per chi si affida ad una casa smart, capire che cosa stia succedendo in casa quando non si è presenti. Potrebbe tornare utile per un allarme antincendio o per altre forme di avvisi”.
Ma oltre ad inviare una comunicazione ad uno smartphone il sistema di smart home potrebbe prendere decisioni, come ad esempio accendere le luci o, nel caso in cui un bambino piangesse, far partire la musica di una ninna nanna rassicurante.

La società cinese Sengled sta utilizzando la tecnologia di Audio Analytic in una lampada smart che ha degli altoparlanti alla sua base, ma lo stesso sistema viene impiegato nei termostati che spesso hanno una collocazione centrale all’interno di una casa.
La parte più complessa di questa tecnologia sta nel riuscire a distinguere e identificare quello che viene ascoltato, perché i falsi allarmi potrebbero causare un disastro. I sistemi di machine learning si sono dimostrati validissimi, ma soltanto sugli esempi sui quali sono stati allenati, ma senza aggiornamento continuo di dati diventano pressoché inutili.

Non è stato facile raccogliere i suoni di vetri rotti, o di bambini che piangevano e catalogare di conseguenza i diversi tipi di pianto, denominandoli accuratamente. Per quanto riguarda l’abbaiare dei cani il lavoro è un po’ più semplice, perché la collaborazione con i veterinari ha permesso di raccogliere l’abbaiare di qualsiasi razza di cane, dal più piccolo al più grande.

Per quanto riguarda l’apprendimento degli allarmi antincendio, Audio Analytic ha acquistato tutti i modelli possibili presenti sul mercato online, inizialmente è stato complicato distinguere un telefono che suonava da una sveglia al timer di un forno, si è fatto in modo di focalizzare il sistema sul timbro e sulla durata dell’allarme e di valutare gli intervalli presenti tra i vari beep.
Ma è pieno di falsi allarmi, basti pensare al cinguettio di un pappagallino spesso in casa come pet, che è facilmente confondibile con un allarme anti fumo, in questo caso bisogna insegnare al sistema ad ignorare questo tipo di suoni, catalogandoli accuratamente.

Un altro tipo di suono che il sistema sta imparando a riconoscere è il diverso tipo di tono e intonazione che la voce umana assume nel momento in cui grida in modo aggressivo, violento o minaccioso, che non cambia molto in termini di lingua, etnia o cultura. La scatola vocale umana viene influenzata ogni volta che l’adrenalina attraversa il corpo.
In ogni caso, l’AI ha iniziato a prestare attenzione all’ascolto.

Suoni e AI: perché Audio Analytic rompe migliaia di finestre? - Ultima modifica: 2017-01-13T09:00:42+00:00 da Francesco Marino

Francesco Marino

Giornalista esperto di tecnologia, da oltre 20 anni si occupa di innovazione, mondo digitale, hardware, software e social. È stato direttore editoriale della rivista scientifica Newton e ha lavorato per 11 anni al Gruppo Sole 24 Ore. È il fondatore e direttore responsabile di Digitalic

Suoni e AI: perché Audio Analytic rompe migliaia di finestre?

Il team di ricercatori Audio Analytic ha messo insieme migliaia di finestre e porte registrando il suono distintivo di ogni tipo di legno e vetro.

Francesco Marino

Non rimanere indietro, iscriviti ora

Iscrizione alla Newsletter

Grazie! Ora fai parte di Digitalic!