Il riconoscimento vocale è il processo mediante il quale la voce dell’essere umano viene riconosciuta ed elaborata attraverso un computer o un apposito sistema. Tale processo viene utilizzato prevalentemente nel contesto delle applicazioni telefoniche, dei sistemi di dettatura, oppure nei sistemi di navigazione satellitare.

Il primo sistema di riconoscimento vocale risale al 1952 e si limitava semplicemente a riconoscere singole cifre parlate.
In Italia la tecnologia del sistema vocale arriva negli anni Settanta, grazie al gruppo di ricerca CSELT di Torino.
Nel 2003 la Nokia è la prima azienda a sviluppare la prima applicazione di riconoscimento vocale che dal 2010 si è poi diffusa in tutti gli smartphone.

I programmi di riconoscimento vocale funzionano grazie a degli algoritmi in grado di ricostruire il linguaggio dell’uomo in base alla frequenza dell’associazione tra parole.
La maggior parte di questi programmi contiene già un vocabolario fonetico che comprende i suoni base emessi dalle parole più frequenti.

I sistemi di riconoscimento vocale sono molto utili soprattutto per dettare documenti, quelli più sofisticati compiono semplici azioni come comandare il cursore del mouse, aprire e chiudere i file del proprio computer. Per l’istallazione è sufficiente leggere un semplice brano davanti al microfono del pc, in modo da consentirgli di memorizzare il tono di voce e i primi vocaboli. L’addestramento costante del programma permette di ridurre gli errori e aumenta la quantità dei vocaboli conosciuti.

Il riconoscimento vocale di Microsoft

Una delle aziende che ultimamente si è particolarmente distinta per i progressi nel campo della tecnologia del sistema di riconoscimento vocale, è la Microsoft.
Dalla casa di Redmond, infatti, è arrivato un sistema di riconoscimento vocale “quasi” umano.
I ricercatori hanno elaborato degli algoritmi di Intelligenza Artificiale (IA) che compiono un margine di errore molto vicino a quello dell’essere umano. Il range di errore di trascrizione delle parole è risultato essere del 5.9%, cioè un numero pari o addirittura inferiore degli errori che compiono i trascrittori professionali, contrariamente al margine di circa 30 anni fa, che era del 6.3%.

È un traguardo storico nel campo dell’Intelligenza Artificiale, perché è la prima volta che si riesce quasi ad eguagliare un sistema informatico all’uomo nel riconoscimento di parole pronunciate, ovviamente non nel loro significato.

Finora, i sistemi di riconoscimento vocale come Cortana o Siri che hanno spopolato sugli smartphone, sembravano perfetti; in realtà per questi strumenti, quello che comunemente si definisce linguaggio, non è altro che un insieme di onde sonore che i diversi algoritmi interpretano e traducono in suoni e parole legate mediante una logica sintattica.

La Microsoft, insieme a questa grande rivoluzione del mondo dell’Intelligenza Artificiale, ha annunciato che c’è ancora parecchia strada prima di raggiungere definitivamente gli esseri umani, ma ha già dei progetti pronti da mettere in atto per, addirittura, superare l’intelligenza dell’uomo.
Gli algoritmi appena messi a punto, infatti, come gli esseri umani, tendono ancora a confondersi in alcune occasioni, soprattutto quando ci sono rumori di sottofondo, come luoghi particolarmente affollati, strade rumorose o condizioni meteo avverse.

La grande casa di Redmond, già anticipa i suoi prossimi passi: riuscire ad aggiungere e distinguere più partecipanti in una conversazione, consentire agli strumenti di riconoscimento vocale di non essere disturbati dai rumori di sottofondo e soprattutto passare dal riconoscimento alla comprensione delle parole, in modo da capirne realmente il significato per comportarsi e agire di conseguenza.

Insomma la strada è lunga, l’essere umano ha ancora il primato in merito al linguaggio parlato rispetto alla tecnologia, ma sicuramente nel futuro non si dovrà più sforzare per adeguarsi al computer perché sarà proprio questo strumento che capirà lui e le sue intenzioni.