Quando si parla di voci generate dall’intelligenza artificiale, la sensazione è spesso quella di trovarsi davanti a qualcosa di ormai maturo. Ovvero suoni naturali, intonazioni credibili, pause sempre più simili a quelle umane. Eppure, sotto la superficie, c’è un problema che continua a pesare parecchio: la lentezza. È proprio da qui che parte un nuovo studio realizzato da ricercatori di Apple e dell’Università di Tel Aviv. Quest’ultima prova a rimettere in discussione il modo in cui l’AI “decide” quali suoni accettare e quali no. Il punto centrale riguarda i modelli di sintesi vocale autoregressivi, tra i più diffusi per trasformare il testo in parlato. Il loro funzionamento è metodico, quasi maniacale: l’audio viene costruito un frammento alla volta, con ogni suono che deve essere validato prima di passare al successivo. Tale approccio garantisce grande precisione, ma rallenta tutto il processo, perché il sistema si comporta come se ogni minima variazione fosse potenzialmente un errore grave.
Sintesi vocale AI più veloce? Si parte da Apple
I ricercatori hanno però notato qualcosa di curioso. Molti dei cosiddetti token vocali, pur essendo diversi a livello matematico, producono suoni che per l’orecchio umano sono identici. Nonostante ciò, il modello li tratta come alternative sbagliate e li scarta, sprecando tempo ed energia computazionale per inseguire una perfezione che, dal punto di vista dell’ascolto reale, non fa alcuna differenza.
Da qui nasce l’idea alla base del Principled Coarse-Graining. Invece di chiedere al sistema di indovinare il singolo suono “giusto” in modo assoluto, lo si invita a ragionare per equivalenze. I suoni simili vengono raccolti in gruppi acustici, e se quello generato rientra nello stesso gruppo di quello atteso, viene considerato valido.
Per rendere il tutto affidabile, il metodo utilizza due modelli che lavorano insieme. Il primo, più piccolo e veloce, si occupa di proporre i suoni. Il secondo, più grande, ha il ruolo di controllore e verifica che rientrino nei limiti accettabili. Tale equilibrio ha portato a un risultato sorprendente: una velocità di generazione del parlato superiore di circa il 40%. Ciò senza compromettere la naturalezza della voce o la correttezza delle parole. Un altro elemento che rende tale ricerca interessante è la sua praticità. Non serve riaddestrare i modelli esistenti né ripensare l’intera architettura. Il metodo può essere, infatti, applicato in fase di utilizzo.
