L’hardware per l’intelligenza artificiale sta cambiando pelle. Non si tratta più soltanto di spingere sulla potenza bruta, ma di costruire architetture capaci di reggere modelli sempre più complessi, distribuiti e autonomi. Ed è esattamente in questa direzione che si muovono le TPU Google di ottava generazione, progettate per supportare i cosiddetti sistemi agentici: modelli che non si limitano a rispondere a una domanda, ma orchestrano azioni, pianificano, richiamano strumenti esterni e aggiornano il proprio stato in tempo reale.
Il percorso delle Tensor Processing Unit parte da lontano. Le prime versioni, arrivate intorno al 2016, servivano ad accelerare operazioni di inferenza su reti neurali relativamente semplici. Con le versioni successive, dalla v3 alla v4, si è passati al supporto per l’addestramento su larga scala, con interconnessioni sempre più veloci e topologie di rete sofisticate. I numeri parlano chiaro: cluster con migliaia di chip, larghezze di banda interne nell’ordine delle centinaia di Tbps, quantità di memoria HBM in costante crescita. Ora, con le TPU 8t e TPU 8i, Google fa un ulteriore salto.
Il cuore della novità sta nel tipo di carico di lavoro che queste TPU Google devono gestire. I sistemi agentici non funzionano in modo lineare. Un modello genera una risposta, la valida, richiama API esterne, aggiorna lo stato e prosegue con il ciclo successivo. Per fare tutto questo servono latenza prevedibile, scheduling dinamico e una gestione efficiente della memoria condivisa. Le TPU di ottava generazione rispondono con comunicazioni più rapide tra chip, maggiore banda di memoria e ottimizzazioni specifiche per i meccanismi di attention e per le architetture mixture of experts, che distribuiscono il lavoro tra più modelli specializzati.
Google ha lavorato anche sullo stack software, in particolare su XLA e sui runtime distribuiti, riducendo i colli di bottiglia legati alla sincronizzazione tra nodi. Anche la rete interna tra TPU si è evoluta: dopo le topologie a tori 2D e 3D delle versioni precedenti, ora le configurazioni puntano a minimizzare la latenza anche in cluster molto estesi.
TPU 8t e TPU 8i: training estremo e inferenza per agenti AI
Sul fronte del consumo energetico, la questione pesa sempre di più. Addestrare modelli di grandi dimensioni costa parecchio, sia in termini di energia che di spesa operativa. Google dichiara miglioramenti significativi nel rapporto performance per watt, ottenuti grazie a ottimizzazioni nel design dei circuiti e nella gestione termica. Le TPU di nuova generazione concentrano più capacità nello stesso spazio fisico e riducono il consumo per operazione, con un impatto diretto sul costo per token generato.
TPU 8t è pensata per il training a scala estrema. Un singolo superpod può includere fino a 9.600 chip, supportati da circa due petabyte di memoria condivisa ad alta banda. Il sistema raggiunge fino a 121 ExaFLOPS, collocandosi tra le infrastrutture più potenti mai progettate per il machine learning. Rispetto alla generazione precedente, Google dichiara un incremento vicino a 3x nel compute per pod e un raddoppio della banda di interconnessione tra chip. Il lavoro sullo storage è altrettanto rilevante: accesso fino a 10 volte più rapido e integrazione con TPUDirect, che consente di caricare i dati direttamente nella memoria delle TPU senza passaggi intermedi.
TPU 8i affronta invece il problema dell’inferenza nei sistemi agentici, dove la criticità non è solo calcolare velocemente ma rispondere in tempi stretti mentre più agenti collaborano e si scambiano informazioni. Ogni chip integra 288 GB di memoria a larga banda e 384 MB di SRAM on chip, circa tre volte rispetto alla generazione precedente. Un elemento tecnico interessante è il Collectives Acceleration Engine, un’unità dedicata che gestisce operazioni globali riducendo la latenza fino a 5 volte.
Integrazione cloud e compatibilità software
Google ha già reso disponibili le nuove TPU di ottava generazione all’interno della propria piattaforma cloud, attraverso servizi gestiti. Ambienti come Vertex AI permettono di orchestrare attività di addestramento e inferenza su larga scala senza dover gestire direttamente l’hardware. Uno sviluppatore può distribuire un modello su migliaia di core TPU senza intervenire sulla configurazione di rete o sul bilanciamento del carico: provisioning, scalabilità e fault tolerance vengono gestiti dal sistema. La barriera d’ingresso si abbassa, anche se a scapito di un minore controllo sulle ottimizzazioni di basso livello.
Le TPU Google funzionano al meglio con framework come JAX e TensorFlow, ma negli ultimi anni è migliorata anche la compatibilità con PyTorch grazie a livelli intermedi di adattamento del codice. L’integrazione non appare ancora completamente ottimizzata e in alcuni scenari le prestazioni risultano inferiori rispetto ai framework nativi, tuttavia l’evoluzione è evidente. È inoltre possibile utilizzare insieme modelli proprietari e open source, ampliando le possibilità per chi lavora su queste infrastrutture.
