L’architettura dei data center AI di Amazon porta una firma italiana, e non è un dettaglio da poco. Dietro la svolta tecnica che sta cambiando il modo in cui Amazon Web Services costruisce le proprie infrastrutture c’è Giacomo Bernardi, ingegnere 44enne, Principal Applied Scientist di AWS. Insieme a due colleghi, nel 2023 è riuscito a fare una cosa che fino a quel momento nessuno aveva mai portato davvero fino in fondo: applicare la teoria dei grafi casuali alle reti su larga scala. Roba complicata, certo, ma con un impatto concreto enorme.
Data center AI: come funziona la nuova architettura RNG
In appena tre anni, la nuova architettura battezzata Resilient Network Graph (RNG) è diventata quella predefinita per i data center di AWS in tutto il mondo. Le nuove strutture in Spagna e Germania, tanto per fare un esempio, poggiano proprio sull’idea di Bernardi e dei suoi colleghi, Ratul Mahajan e Seshadri Comandur. Tre teste che hanno provato a rispondere a un problema che riguarda Amazon ma anche tutti gli altri grandi gestori di data center.
Il nodo era questo: per anni si sono usate le cosiddette reti fat tree, strutture gerarchiche a piramide piuttosto rigide. Tantissimi router distribuiti su più livelli, con i server agganciati alla fascia più bassa. Un modello semplice, affidabile, che ha funzionato benissimo. Almeno fino a quando l’intelligenza artificiale non ha fatto saltare gli equilibri. Perché il “nuovo” mondo, lo sappiamo bene, chiede risorse mostruose e un numero altissimo di strutture potenti ed energivore, capaci però di restare scalabili, cioè pronte a espandersi quando serve altra potenza di calcolo.
Il problema della piramide e la svolta italiana
E qui sta il punto debole delle fat tree. Aggiungere server vuol dire allargare la base della piramide, e allargare la base costringe a infilare nuovi router in cima per garantire ai nuovi arrivati la connettività necessaria. “Questa piramide non può crescere all’infinito” ha spiegato Bernardi, “altrimenti le performance e la latenza peggiorerebbero inevitabilmente”. Tradotto, prima o poi si arriva a un muro.
La teoria dei grafi casuali aggira il problema in modo elegante. Invece della piramide, i router vengono disposti in una rete piatta, collegati tra loro in una magliatura casuale. Sulla carta una soluzione perfetta. Nella pratica, però, nessuno c’era mai riuscito, frenato dai limiti di scalabilità. Arrivare al risultato finale, la RNG, ha richiesto parecchio ingegno umano e un lavoro di programmazione enorme da parte della stessa intelligenza artificiale, che ha bruciato “l’equivalente di 500 anni-processore”. Un dato che da solo racconta bene la mole di calcoli messi in campo per chiudere il cerchio.
Il risultato è un’infrastruttura più flessibile, capace di crescere senza i colli di bottiglia che fino a ieri sembravano inevitabili. E con un ingegnere italiano nel ruolo di protagonista, cosa che capita meno spesso di quanto si vorrebbe in questo tipo di storie.