La trascrizione vocale compie l’ennesimo passo in avanti grazie al nuovo modello di intelligenza artificiale rilasciato da Alibaba: Qwen3-ASR-Flash. La novità introdotta dal modello in questione risiede nelle sue grandi capacità di comprendere, trascrivere e tradurre ben 11 lingue e tra queste numerosi dialetti e accenti. Si tratta di un enorme traguardo per il settore della trascrizione vocale, che riceve adesso un nuovo strumento appositamente pensato per offrire risposte anche in presenza di scenari complessi, mantenendo un tasso di accuratezza mai visto.

Qwen3-ASR-Flash è l’AI per la trascrizione vocale migliore degli ultimi tempi

Il nuovo Qwen3-ASR-Flash rappresenta un punto di svolta nella trascrizione vocale per la sua predisposizione a riconoscere e distinguere non soltanto numerose lingue bensì diversi accenti e dialetti. Gli utenti, infatti, ottengono una trascrizione fedele al contenuto audio fornito con un’accuratezza che raggiunge il 92%, un risultato lontano da quello raggiunto da modelli già presenti sul mercato.

Accedendo alla pagina ufficiale Qwen è possibile verificarne le capacità tramite una serie di esempi di prova, che dimostrano la capacità del modello di trascrivere diversi tipi di conversazione, canzoni e tanto altro. Qwen3-ASR-Flash è in grado di isolare le parole da un contesto rumoroso e riconoscerle nonostante le basi musicali. Tra le lingue supportate vi sono l’italiano, il francese, l’inglese, il tedesco, il russo, il coreano, il giapponese, lo spagnolo, il portoghese, il cinese e l’arabo. Inoltre, sono inclusi i vari dialetti: nel caso del cinese, ad esempio, sarà in grado di riconoscere il mandarino e i principali dialetti utilizzati.

Il tasso di errore prodotto dal modello raggiunge soltanto l’8% dimostrando capacità decisamente all’avanguardia che potranno essere testate accedendo ad Hugging Face. Ognuno avrà modo di personalizzare il prompt fornito inserendo la lingua del contenuto audio o impostando il riconoscimento automatico; sarà possibile offrire informazioni di contesto extra per rendere tutto più accurato o modificare l’audio.