La capacità di orientarsi tra suoni concorrenti è una delle abilità più complesse dell’ascolto umano. In situazioni quotidiane come bar affollati, riunioni informali o spazi pubblici rumorosi, il cervello è costretto a un continuo lavoro di selezione per dare priorità a una voce rispetto alle altre. Tale meccanismo, spesso dato per scontato, diventa fragile quando il rumore aumenta o quando sono presenti difficoltà uditive. È proprio su tale punto critico che si concentra una nuova ricerca condotta dall’Università di Washington, che propone un approccio inedito all’uso dell’intelligenza artificiale applicata all’ascolto. Il risultato è un prototipo di cuffie progettato per intervenire non sul volume, ma sulla struttura stessa della conversazione. Invece di isolare una singola voce scelta manualmente dall’utente, il sistema osserva il modo in cui le persone parlano tra loro. Le conversazioni reali seguono, infatti, schemi riconoscibili. I ricercatori hanno deciso di sfruttare tale dinamica, insegnando a un modello di apprendimento automatico a riconoscerla attraverso l’audio.
Un nuovo studio propone cuffie con AI per riconoscere le diverse voci
L’aspetto più rilevante del progetto è l’assenza di interazioni artificiali. Non è richiesto alcun gesto, nessuna selezione preventiva, né l’uso di sensori visivi o tracciamenti dello sguardo. Il sistema entra in funzione quando l’utente prende la parola. Da quel momento, un primo modello analizza i tempi di intervento delle voci circostanti per identificare chi sta effettivamente partecipando allo scambio comunicativo. Un secondo modello agisce in parallelo, occupandosi della pulizia del segnale audio e della restituzione di una voce più nitida e comprensibile. Senza ritardi percepibili.
Un elemento strategico del progetto è la scelta di rendere il codice open source, una decisione che punta a favorire la diffusione e l’adattamento della tecnologia su scala più ampia. Restano però alcune criticità. Ambienti estremamente caotici, con persone che parlano simultaneamente o che entrano ed escono rapidamente da una conversazione, possono mettere in difficoltà l’algoritmo. Anche il tema del multilinguismo è aperto: il modello è stato addestrato su inglese, mandarino e giapponese, e l’estensione ad altre lingue richiederà ulteriori adattamenti.
Nel suo stato attuale, il prototipo delle nuove cuffie è in grado di gestire conversazioni che coinvolgono fino a cinque persone, includendo chi indossa le cuffie. Tale capacità è stata dimostrata in tempo reale, mantenendo una qualità audio stabile anche in presenza di rumori di fondo. La tecnologia è stata presentata ufficialmente il 7 novembre a Suzhou, in Cina, durante la conferenza EMNLP. Uno degli eventi di riferimento per la ricerca sul linguaggio naturale e sui modelli computazionali del parlato.
