Esistono scritture antiche che nessuno è mai riuscito a leggere. Non è un modo di dire: ci sono sistemi di scrittura risalenti a migliaia di anni fa che restano completamente muti, nonostante decenni di studi. Almeno tre di queste scritture risultano ancora oggi del tutto indecifrate, e ora l’intelligenza artificiale sta provando a fare quello che generazioni di studiosi non sono riuscite a portare a termine.
Si parla del Lineare A, del proto-elamita e dello script dell’Indo. Tre sistemi diversi, provenienti da aree geografiche e periodi storici differenti, ma accomunati dallo stesso problema: esistono migliaia di iscrizioni su argilla e pietra, eppure non una sola traduzione verificata. Zero. Niente di confermato. Questo significa che ci sono intere civiltà che hanno lasciato tracce scritte della propria esistenza senza che nessuno, nel mondo moderno, sia in grado di capire cosa volessero comunicare.
Il punto è che la filologia comparata, cioè quella disciplina che confronta lingue e sistemi di scrittura per trovare corrispondenze e chiavi di lettura, ha lavorato su questi testi per decenni senza cavare un ragno dal buco. Non per mancanza di competenza, sia chiaro, ma perché in molti casi mancano i riferimenti necessari: nessuna stele di Rosetta, nessun testo bilingue, nessun aggancio sicuro a una lingua conosciuta.
Cosa stanno facendo i modelli linguistici avanzati
Ed è qui che entrano in gioco i modelli linguistici avanzati. Le tecnologie di intelligenza artificiale oggi disponibili sono in grado di analizzare enormi quantità di dati testuali, individuare pattern ricorrenti e proporre ipotesi su strutture grammaticali o corrispondenze lessicali che un essere umano, anche molto preparato, faticherebbe a cogliere manualmente. Si tratta di un approccio statistico e computazionale che non sostituisce il lavoro degli esperti, ma prova ad aprire strade nuove dove quelle tradizionali si sono fermate.
Detto questo, va anche precisato che l’intelligenza artificiale non ha ancora risolto nessuno di questi misteri. Le scritture indecifrate restano tali. I modelli possono suggerire ipotesi, evidenziare schemi, magari restringere il campo delle possibilità, ma manca ancora quel qualcosa di decisivo per arrivare a una vera e propria traduzione. Senza un corpus testuale sufficientemente ampio, senza un collegamento a una lingua nota, anche il più potente degli algoritmi si ritrova a brancolare nel buio, per quanto in modo molto più veloce e sistematico rispetto a un ricercatore seduto a una scrivania.
Perché queste scritture resistono ancora a ogni tentativo
Il problema di fondo è quasi paradossale: per addestrare un modello di intelligenza artificiale serve una grande quantità di dati, ma nel caso del Lineare A o del proto-elamita i testi disponibili sono relativamente pochi. E soprattutto, non esistono traduzioni di riferimento su cui costruire un sistema di apprendimento. È un po’ come chiedere a qualcuno di imparare una lingua senza mai avere un dizionario, senza un insegnante e senza nemmeno sapere se quella lingua ha qualcosa in comune con qualsiasi altra lingua conosciuta.
Le scritture antiche indecifrate rappresentano quindi una sfida enorme anche per le tecnologie più recenti. I modelli linguistici avanzati offrono nuove speranze, questo è innegabile, e la capacità computazionale a disposizione oggi non ha precedenti nella storia. Ma tra il riconoscere uno schema statistico e il comprendere davvero cosa significava un’iscrizione incisa nell’argilla quattromila anni fa, il salto resta notevole.
Lo script dell’Indo, per esempio, pone un ulteriore ostacolo: non tutti gli studiosi concordano nemmeno sul fatto che si tratti di un vero sistema di scrittura nel senso pieno del termine. Alcuni ritengono che potrebbe trattarsi di un sistema di simboli non linguistici, il che renderebbe qualsiasi tentativo di “traduzione” privo di senso in partenza. L’intelligenza artificiale, insomma, sta tentando dove la filologia comparata non è bastata, ma il traguardo resta ancora lontano.
