DeepL, l’azienda che praticamente tutti conoscono per i suoi strumenti di traduzione testuale, ha deciso di fare un passo piuttosto ambizioso: tradurre anche la voce. Non semplici trascrizioni, ma una vera e propria suite di traduzione vocale in tempo reale pensata per coprire scenari diversi, dalle riunioni aziendali alle conversazioni via web e mobile, fino alle comunicazioni di gruppo per lavoratori sul campo attraverso app personalizzate.
Il CEO di DeepL, Jarek Kutylowski, ha spiegato che dopo anni passati a perfezionare la traduzione del testo, il passaggio alla voce era un’evoluzione naturale. Le parole esatte? “Abbiamo fatto molta strada nella traduzione testuale e documentale, ma ritenevamo che non esistesse un prodotto davvero valido per la traduzione vocale in tempo reale.” La sfida principale, ha aggiunto, sta nel trovare il giusto equilibrio tra la riduzione della latenza (quel fastidioso ritardo tra il momento in cui qualcuno parla e il momento in cui si sente la traduzione) e il mantenimento di risultati accurati. Un problema tutt’altro che banale, perché sacrificare la velocità significa rendere la conversazione innaturale, mentre sacrificare la qualità significa produrre traduzioni inutilizzabili.
DeepL sta rilasciando anche un’API dedicata che permette a sviluppatori esterni e aziende di costruire soluzioni personalizzate sfruttando la tecnologia dell’azienda, con applicazioni pensate ad esempio per i call center.
Come funziona e dove si può usare
Per quanto riguarda le piattaforme più diffuse, DeepL ha sviluppato componenti aggiuntivi per Zoom e Microsoft Teams. Chi partecipa a una riunione può scegliere se ascoltare la traduzione audio in tempo reale mentre gli altri parlano nella propria lingua madre, oppure seguire il testo tradotto direttamente sullo schermo. Questo programma è attualmente in accesso anticipato: le organizzazioni interessate possono iscriversi a una lista d’attesa. L’azienda offre anche un prodotto specifico per conversazioni via mobile e web, utilizzabile sia di persona che da remoto.
C’è poi una funzionalità pensata per le conversazioni di gruppo, utile in contesti come sessioni di formazione o workshop. I partecipanti possono unirsi semplicemente scansionando un codice QR. Un dettaglio interessante è che la tecnologia vocale di DeepL è in grado di apprendere e adattarsi a vocabolari personalizzati, compresi termini specifici di settore, nomi di aziende e nomi personali. Kutylowski ha anche sottolineato come l’intelligenza artificiale stia ridefinendo il concetto di servizio clienti. Un livello di traduzione consente alle aziende di offrire assistenza in lingue per le quali trovare personale qualificato è difficile e costoso.
La tecnologia dietro e la concorrenza
DeepL ha dichiarato di controllare l’intero stack della traduzione vocale. Al momento il sistema funziona convertendo il parlato in testo, applicando la traduzione e poi riconvertendo il tutto in audio. L’azienda ritiene che anni di lavoro sulla traduzione testuale rappresentino un vantaggio competitivo significativo in termini di qualità. Il passo successivo, però, è sviluppare un modello di traduzione vocale end to end, che salti completamente la fase testuale intermedia.
