Me
microsoft
Condividi su:

microsoft

a

27 Apr. 2018

Microsoft ha raggiunto un risultato storico nel campo del riconoscimento artificiale del linguaggio, creando una tecnologia che riconosce le parole in una conversazione esattamente come farebbe una persona.

Un gruppo di ricercatori e ingegneri del Microsoft Artificial Intelligence and Research Group ha annunciato un sistema capace di commettere la stessa percentuale di errori che commetterebbe un professionista delle trascrizioni. Il Word Error Rate (WER), spiegano i ricercatori, è stato abbassato dal 6.3 a una soglia minima del 5.9 per cento, il più basso tasso mai raggiunto.

“Abbiamo raggiunto livelli umani”, ha dichiarato Xuedong Huang, Chief Speech Scientist di Microsoft. “È un traguardo storico”.

Un computer è ora in grado di comportarsi, nel riconoscere una conversazione simulata, esattamente come farebbe una persona. Con gli ultimi sviluppi, il team Microsoft ha raggiunto un obiettivo prefissatosi più di un anno fa. “Fino a cinque anni fa, non avrei mai pensato che avremmo potuto raggiungere questo risultato. Non pensavo sarebbe stato possibile”, ha commentato Harry Shum, vice presidente esecutivo a capo del Microsoft Artificial Intelligence and Research Group.

Lo storico traguardo giunge dopo decenni di ricerca nel riconoscimento del linguaggio, iniziato nel 1970 con il progetto DARPA, l’agenzia statunitense incaricata dello sviluppo di nuove tecnologie per uso militare.

“Questo traguardo è il risultato di più di venti anni di sacrifici”, ha dichiarato Geoffrey Zweig, amministratore dello Speech & Dialogue Research Group.

I recenti sviluppi avranno un forte impatto per i prodotti che possono beneficiare della “speech recognition”. Ciò include piattaforme di intrattenimento e consolle come la Xbox e virtual assistants come Siri e Cortana.

“Ciò renderà Cortana ancora più potente, facendone un vero e proprio assistente virtuale”, ha aggiunto Shum.

La ricerca ha specificato però che la macchina non sarà in grado di riconoscere ogni singola parola di un discorso. Si parla infatti di “human parity”: il tasso di errore nel comprendere e analizzare una parola, è lo stesso che ci si potrebbe aspettare in una normale conversazione. Proprio come tra umani.

Zweig attribuisce tale risultato all’uso sistematico della recente tecnologia che replica le reti neurali in tutte gli aspetti del sistema utilizzato.

L’uso dei modelli di linguaggi neurali ha permesso ai ricercatori di compiere ulteriori passi avanti nello sviluppo di questi software, in cui parole come “rapido” e “veloce” sono connesse tra loro. “Ciò permette ai modelli di “generalizzare” ogni parola”, ha dichiarato Zweig, riferendosi agli algoritmi utilizzati per combinare un determinato modello ai dati che si hanno in possesso.

Le reti neurali usano infatti una grande quantità di dati – chiamati training sets – per insegnare ai computer come riconoscere ogni “pattern” da diversi input come immagini o suoni.

Per raggiungere standard umani, il team di ricerca ha utilizzato Micorosoft Cognitive Toolkit, un sistema di deep learning che il team stesso ha reso disponibile su GitHub.

Huang ha dichiarato che l’abilità del Microsoft Cognitive Toolkit di processare velocemente gli algoritmi di deep learning ha migliorato sensibilmente la velocità della ricerca, permettendogli di raggiungere questi risultati.

“Per me è un sogno diventato realtà”, ha dichiarato Huang, che ha lavorato sul riconoscimento artificiale del linguaggio negli ultimi trent’anni.

Nonostante le grandi divergenze degli scorsi anni nel campo del riconoscimento linguistico e visuale, i ricercatori affermano che c’è ancora molto lavoro da fare. Zweig ha affermato che il team sta lavorando per rendere la “speech recognition” ancora più affidabile, includendo nei test anche le interferenze che possono cambiare da contesto a contesto, come le voci di sottofondo durante una festa o il rumore delle macchine. La ricerca si concentrerà anche sul riconoscimento vocale degli utenti che stanno parlando quando la conversazione prevede più partecipanti e sulle informazioni che il computer può carpire analizzando il suono di una determinata voce, come età, sesso, accento e capacità linguistiche.

A lungo termine, invece, i ricercatori della Microsoft cercheranno di insegnare ai computer non solo a trascrivere i segnali acustici pronunciati da un parlante, ma anche a comprendere il messaggio che essi stanno veicolando. Ciò permetterebbe alla tecnologia di rispondere in maniera diretta alle richieste in base ai dati che ha a disposizione.

“La prossima sfida è passare dal riconoscimento alla comprensione”, ha aggiunto Zweig.

Come ha precisato Shum, siamo passati da un mondo in cui le persone capiscono i computer a un mondo in cui i computer capiscono noi. Ma, afferma, una vera e propria intelligenza artificiale è ancora lontana. “Ci vorrà ancora molto prima che i computer possano comprendere realmente ciò che diciamo”, conclude Schum.

Il giornalismo richiede risorse e scegliere di mantenere gratuito l’accesso a un giornale indipendente come TPI significa dover contare anche sulla pubblicità: questa è la ragione per cui vedi tanti annunci. Se vuoi contribuire a migliorare il nostro giornale e leggere gli articoli senza pubblicità anche da mobile iscriviti a TPI Plus, basta davvero poco ➝ www.tpi.it/plus