OmniVoice è il nuovo modello di intelligenza artificiale dedicato alla sintesi vocale che arriva direttamente dall’AI Lab interno di Xiaomi. L’azienda cinese continua a investire con decisione nel mondo dell’AI open source e stavolta ha messo sul piatto qualcosa di parecchio ambizioso: un sistema capace di produrre voce sintetica di qualità partendo da una quantità di dati davvero minima. Si parla di meno di 10 ore di audio per ottenere risultati accettabili, il che apre scenari interessanti soprattutto per le lingue minoritarie, i dialetti regionali e tutte quelle lingue che i grandi modelli proprietari tendono a ignorare del tutto. Per chi si occupa di tecnologie vocali, OmniVoice rappresenta un tentativo concreto di colmare un vuoto che esiste da tempo.
Tra le funzionalità più rilevanti c’è la clonazione vocale realistica, cioè la possibilità di riprodurre una voce specifica con un grado di fedeltà elevato. E poi c’è il supporto multilingue su larga scala: secondo i benchmark interni condivisi da Xiaomi, OmniVoice avrebbe eguagliato o addirittura superato i principali modelli commerciali su 24 lingue, tra cui inglese e cinese, usando esclusivamente dataset open source per l’addestramento. Su 102 lingue testate, la comprensione del parlato sintetizzato sarebbe risultata vicina, e in alcuni casi superiore, a quella della voce umana reale. Ovviamente, come succede sempre con i benchmark interni, questi numeri vanno presi con una certa cautela finché non arriveranno verifiche indipendenti.
Come funziona l’architettura di OmniVoice
La scelta tecnica alla base di OmniVoice è volutamente più snella rispetto ai sistemi tradizionali di sintesi vocale. Invece di mettere insieme più moduli separati, il modello utilizza un’unica rete bidirezionale Transformer che converte direttamente il testo in voce. Xiaomi dichiara che questo approccio porta a una riduzione significativa della complessità e dei tempi di elaborazione: OmniVoice sarebbe in grado di generare audio fino a 40 volte più velocemente del tempo reale e di completare l’addestramento su 100.000 ore di dati in un solo giorno. Numeri che, se confermati nella pratica, farebbero una bella differenza.
Sul fronte della personalizzazione, il modello offre la possibilità di creare voci sintetiche semplicemente descrivendo caratteristiche come età, accento, tono e stile di parlato, senza dover per forza fornire campioni audio. OmniVoice supporta anche effetti espressivi piuttosto avanzati, tra cui sussurri, risate e sospiri, e include una funzione di rimozione dei rumori di fondo dai campioni usati per la clonazione. Questo significa che anche partendo da registrazioni non proprio perfette, la qualità finale della voce sintetica dovrebbe risultare comunque buona.
La strategia di Xiaomi nell’AI open source
OmniVoice si inserisce in un percorso più ampio che Xiaomi sta portando avanti nel campo dell’intelligenza artificiale open source. L’obiettivo dichiarato è costruire un ecosistema di modelli sviluppati internamente, e la sintesi vocale è chiaramente uno dei tasselli di questo mosaico. Al momento OmniVoice resta un annuncio tecnico e non un prodotto già disponibile per gli utenti finali. Non ci sono ancora indicazioni precise su quando e come queste tecnologie potrebbero trasformarsi in funzionalità concrete integrate nei dispositivi o nei servizi dell’azienda. Quello che è chiaro è che il colosso cinese non ha nessuna intenzione di restare a guardare nella corsa globale all’intelligenza artificiale, e la pubblicazione di un modello come OmniVoice sotto licenza open source è un segnale che va esattamente in quella direzione.
