Le nuove TPU di ottava generazione di Google segnano un cambio di passo piuttosto netto rispetto al passato. Mentre la maggior parte delle aziende impegnate nello sviluppo di modelli di intelligenza artificiale continua a fare scorta di acceleratori Nvidia, Google ha scelto da tempo una strada diversa, costruendo la propria infrastruttura cloud AI attorno alle Tensor Processing Unit personalizzate. Dopo aver presentato la settima generazione, chiamata Ironwood, nel 2025, ora arriva la generazione numero otto. E non si tratta semplicemente di un chip più veloce: la filosofia alla base è cambiata.
Le nuove TPU si dividono in due varianti distinte. La TPU 8t è dedicata esclusivamente al training dei modelli AI, mentre la TPU 8i è progettata per l’inferenza, cioè quel processo che avviene quando si chiede a un modello di fare qualcosa e questo genera una risposta. Google sostiene che l’era degli agenti AI richieda un approccio hardware completamente diverso rispetto ai sistemi precedenti, e per questo ha deciso di separare nettamente le due fasi del ciclo di vita dell’intelligenza artificiale.
La TPU 8t punta a ridurre i tempi di addestramento dei modelli AI di frontiera da mesi a settimane. I nuovi cluster server, che Google chiama “pod”, ospitano 9.600 chip con due petabyte di memoria condivisa ad alta larghezza di banda. Il dato che colpisce di più è la capacità di scalare linearmente fino a un milione di chip in un singolo cluster logico, raggiungendo 121 EFlops in FP4 per pod. Parliamo di quasi tre volte la capacità di calcolo per il training rispetto a Ironwood. Google dichiara anche un tasso di “goodpute” del 97%, il che significa che quasi tutta la potenza di calcolo viene effettivamente usata per far avanzare l’addestramento del modello, con pochissimi sprechi.
Inferenza più smart e architettura ripensata
La TPU 8i, dal canto suo, ha meno potenza bruta rispetto alla sorella dedicata al training, ed è una scelta deliberata. L’inferenza non richiede la stessa forza di calcolo, e usare lo stesso hardware per entrambe le fasi sarebbe inefficiente. I pod di TPU 8i ospitano 1.152 chip ciascuno (contro i 256 dei cluster di inferenza Ironwood), per un totale di 11,6 EFlops per pod. Google ha triplicato la quantità di SRAM on-chip per ogni TPU 8i, portandola a 384 MB: questo consente di mantenere una cache più ampia direttamente sul chip, velocizzando i modelli con finestre di contesto più lunghe.
Un’altra novità importante riguarda l’architettura host. Le TPU di ottava generazione sono le prime di Google a fare affidamento esclusivamente sulla CPU ARM Axion personalizzata, con un rapporto di una CPU ogni due TPU. Nella generazione Ironwood, ogni CPU x86 serviva quattro chip TPU. Secondo Google, questo approccio “full stack” basato su ARM garantisce un’efficienza molto superiore.
Efficienza energetica e raffreddamento al centro della scena
Il tema dell’efficienza attraversa tutto il progetto. Addestrare e far funzionare modelli AI di frontiera costa tantissimo, e il ritorno sull’investimento resta incerto per molte aziende del settore. Google afferma che le nuove TPU offrono il doppio delle prestazioni per watt rispetto a Ironwood. I data center, co-progettati insieme ai chip, avrebbero aumentato la potenza di calcolo per unità di elettricità di sei volte, grazie a layout dei pod più efficienti e all’integrazione di networking e calcolo su un singolo chip. Questo non significa necessariamente che i data center consumeranno meno energia, ma che otterranno più risultati con la stessa quantità di corrente.
Anche il consumo di acqua per il raffreddamento è stato affrontato. La densità computazionale dei server AI genera calore che non può essere dissipato con l’aria, rendendo il raffreddamento a liquido indispensabile. Google ha adattato il proprio sistema di quarta generazione alle nuove TPU, usando valvole a controllo attivo che regolano il flusso d’acqua in base al carico di lavoro.
Le TPU 8t e TPU 8i alimenteranno gli agenti basati su Gemini di Google, ma sono pensate anche per sviluppatori terzi, con supporto ai framework già in uso come JAX, MaxText, PyTorch, SGLang e vLLM. Dopo l’annuncio, il titolo Nvidia ha registrato un calo temporaneo di circa l’1,5% prima di recuperare e tornare sopra i 175 euro per azione.
