Robot imbattibile ad air hockey, allenato però soltanto nel mondo virtuale: è quello che hanno tirato fuori tre studenti della University of British Columbia, che sono riusciti a far giocare una macchina contro persone reali senza che il braccio meccanico avesse mai toccato un tavolo vero prima di quel momento. Tutta l’esperienza, milioni di partite, accumulata dentro un software. E poi, dal nulla, la capacità di mettere in difficoltà avversari in carne e ossa.
Come fa un robot a vincere senza aver mai giocato
Il punto interessante sta tutto qui, nel metodo di addestramento. Di solito i dispositivi meccanici guidati dall’intelligenza artificiale imparano sbagliando nel mondo reale, prova e riprova, finché non azzeccano il movimento giusto. Funziona, certo, ma è un processo lungo. E rischia anche di rovinare i componenti hardware, perché ogni errore può significare un colpo sbagliato, un pezzo che si usura, qualcosa che si rompe.
I ricercatori canadesi hanno preso una strada diversa. Hanno costruito un gemello digitale del tavolo da gioco, ma con una scelta tutt’altro che banale: lo hanno riempito di imperfezioni volute. Per far somigliare la simulazione alla realtà, dentro il programma sono finite sponde irregolari, rimbalzi imprevedibili del disco, variazioni di tensione elettrica e perfino i piccoli ritardi tipici della fotocamera. Insomma, hanno ricreato il caos invece di evitarlo. La simulazione doveva essere sporca, non perfetta.
La randomizzazione del dominio e il salto nel mondo reale
Questa tecnica ha un nome preciso, si chiama randomizzazione del dominio. In pratica costringe l’AI a non calcolare una traiettoria matematica impeccabile, ma a prevedere un’area approssimativa in cui il disco potrebbe finire. Esattamente quello che fa un giocatore umano quando si adatta al disordine della partita, senza avere la pretesa di sapere con certezza dove andrà a parare ogni colpo.
Per velocizzare tutto questo apprendimento virtuale, il team ha lasciato perdere i classici motori grafici commerciali. Ha preferito un sistema basato su premi e penalità digitali, assegnati a seconda di come la macchina se la cavava partita dopo partita. Una logica semplice, quasi educativa: fai bene e guadagni, sbagli e perdi punti.
Una volta che il software è stato trasferito sul robot vero, la macchina ha avuto un solo aiuto esterno: una telecamera piazzata in alto che traccia un disco speciale a 120 fotogrammi al secondo. Da lì in poi, ha fatto tutto da sola, dimostrandosi subito capace di tenere testa agli sfidanti umani. Un risultato che racconta bene quanto possa valere un addestramento fatto interamente al chiuso di un computer, prima ancora di accendere il braccio meccanico.