Quando si parla di chip AI, la prima cosa che viene in mente sono le GPU sempre più potenti, i nodi litografici sempre più piccoli, la corsa ai nanometri. Eppure, secondo un recente report di Morgan Stanley, il vero problema si trova altrove. Il collo di bottiglia che sta rallentando l’intera industria dei semiconduttori legata all’intelligenza artificiale non riguarda più la capacità di calcolo pura, ma qualcosa di molto più prosaico: la memoria RAM ad alte prestazioni. Quella che serve per alimentare le GPU e farle lavorare davvero a pieno regime.
E non si tratta di un dettaglio. Stando alle stime degli analisti, entro il 2027 il costo della memoria HBM potrebbe arrivare a pesare fino al 40% del valore complessivo dell’hardware dedicato all’AI. Un dato che sta già condizionando la disponibilità delle GPU, i tempi di consegna e le strategie dei grandi operatori cloud su scala globale.
Cos’è la memoria HBM e perché è diventata così critica
HBM sta per High Bandwidth Memory. Si tratta di moduli DRAM impilati in verticale e collegati tra loro tramite interconnessioni ultraveloci chiamate Through Silicon Via. Questa architettura garantisce larghezze di banda enormemente superiori rispetto alla memoria tradizionale. Ed è diventata fondamentale perché i moderni modelli linguistici hanno bisogno di un accesso continuo e rapidissimo a parametri, tensori e cache temporanee durante l’addestramento.
Il concetto alla base è piuttosto semplice: se il flusso di dati tra memoria e processore non è abbastanza veloce, migliaia di core restano fermi, in attesa delle informazioni che servono per procedere. Nei sistemi più recenti, come le GPU NVIDIA Blackwell e Hopper, la larghezza di banda supera diversi terabyte al secondo. Per raggiungere queste prestazioni, GPU e memoria vengono integrate su un unico substrato attraverso tecnologie di packaging avanzato come CoWoS, sviluppata da TSMC.
Ed è proprio su questo fronte che si concentra il vincolo industriale più serio. Produrre chip AI non significa soltanto fabbricare processori con nodi a 3 o 4 nanometri: servono linee dedicate per la memoria HBM e capacità di assemblaggio estremamente sofisticate. TSMC fatica già oggi a soddisfare tutta la domanda di packaging CoWoS, da cui NVIDIA dipende in modo significativo per assemblare i suoi acceleratori H100, H200 e Blackwell B200. Nel frattempo, SK hynix domina il mercato della memoria HBM ad alte prestazioni, con Samsung che prova a recuperare terreno aumentando rapidamente investimenti e volumi produttivi.
La situazione potrebbe peggiorare, e le conseguenze sono concrete
I modelli AI continuano a crescere. Più parametri, contesti più lunghi, capacità multimodali sempre più complesse. Ogni passo avanti richiede più memoria e una banda passante superiore. NVIDIA H200 integra già fino a 141 GB di HBM3E, e le generazioni Blackwell superano ulteriormente questa soglia. Addestrare modelli con centinaia di miliardi di parametri significa mettere in piedi cluster composti da migliaia di acceleratori, con costi che comprendono rack specializzati, raffreddamento liquido e infrastrutture di rete ad altissima velocità.
C’è poi un problema fisico non banale. Gli stack DRAM impilati producono densità energetiche elevate, e questo complica la dissipazione del calore, limitando ulteriormente rese produttive e capacità industriale. La memoria HBM4, lo standard attualmente in fase di sviluppo, potrebbe amplificare tutte queste tensioni nella prossima generazione di sistemi.
Per operatori cloud come Microsoft Azure, Google Cloud, Amazon Web Services e Oracle, ogni ritardo nella disponibilità della memoria HBM si traduce direttamente in rallentamenti nell’implementazione di nuovi cluster AI. Il report suggerisce che la competizione nel settore dipenderà sempre meno dal semplice accesso ai chip AI e sempre più dal controllo dell’intera supply chain della memoria avanzata.
