Che i colossi dell’intelligenza artificiale stiano assorbendo enormi quantità di componenti hardware è ormai cosa nota. Il prezzo di RAM, SSD e laptop di fascia alta continua a salire proprio perché le grandi aziende del settore si accaparrano buona parte della produzione per alimentare datacenter sempre più mastodonici. La notizia che arriva ora, però, aggiunge un dettaglio che fa un certo effetto: i datacenter di xAI funzionano con un tasso di utilizzo delle GPU fermo a poco più dell’11%. Detto in modo ancora più chiaro, la stragrande maggioranza degli acceleratori resta praticamente inattiva per gran parte del tempo.
L’infrastruttura di xAI è tutt’altro che modesta. Si parla di circa 550.000 acceleratori NVIDIA, tra modelli H100 e H200, distribuiti nei cluster di Memphis e Colossus. Numeri impressionanti sulla carta, che ne fanno uno degli impianti più grandi dell’intero settore. Eppure, in termini reali, solo l’equivalente di circa 60.000 GPU risulta effettivamente operativo a tempo pieno. Il resto è lì, acceso, alimentato, ma sostanzialmente fermo. E il motivo non è tanto nell’hardware in sé, quanto nello stack software ancora immaturo, incapace di orchestrare in modo efficiente una flotta così vasta.
Il problema non riguarda solo xAI
Sarebbe facile puntare il dito esclusivamente contro la società di Elon Musk, ma il quadro generale non è molto più rassicurante. Anche le aziende considerate più virtuose in questo ambito non se la cavano granché bene. Meta si ferma al 43% di efficienza nell’utilizzo delle proprie GPU, mentre Google arriva al 46%. Nessuna delle grandi realtà del settore riesce nemmeno a toccare la soglia del 50%, nonostante investimenti significativi proprio sull’ottimizzazione software. Il dato di xAI, però, resta il più basso in assoluto, e con un distacco notevole.
Per quanto riguarda xAI, il collo di bottiglia principale sembra risiedere nelle reti di addestramento e nelle ottimizzazioni a livello software. La società starebbe lavorando attivamente per portare il proprio tasso di utilizzo almeno al 50%, intervenendo sia sull’infrastruttura sia sulle applicazioni di livello più alto. Tra le opzioni sul tavolo ci sarebbe anche quella di noleggiare potenza di elaborazione esterna, per alleggerire il carico sui cluster esistenti e guadagnare tempo.
La strada verso chip proprietari e il progetto TeraFab
In parallelo, Musk continua a spingere sul progetto TeraFab, che punta alla creazione di chip AI proprietari pensati su misura per le esigenze della piattaforma. In questo scenario rientra anche l’utilizzo di tecnologie di produzione avanzate, come il nodo 14A di Intel. L’idea di fondo è piuttosto logica: un hardware progettato specificamente per determinati algoritmi potrebbe garantire un salto in avanti significativo nell’efficienza, superando quei limiti che oggi derivano dall’uso di acceleratori generici, per quanto potenti.
Proprio la combinazione tra ottimizzazione software e sviluppo di chip dedicati potrebbe rappresentare la direzione più concreta per ridurre quello spreco colossale che oggi caratterizza i datacenter di xAI e, più in generale, quelli di tutto il settore dell’intelligenza artificiale.
