Microsoft continua a spingere sull’acceleratore per la propria strategia AI e lo fa con una mossa che va oltre il semplice annuncio di un nuovo chip. A tal proposito, Maia 200 non è solo un altro acceleratore per l’inferenza. È il tassello più recente di una visione che punta a controllare l’intera catena del valore, dal silicio fino al software che gira nei data center Azure. Nel post firmato da Scott Guthrie, Executive Vice President Cloud and AI, emerge l’obiettivo di fondo: cambiare in modo strutturale l’economia dell’AI su larga scala. Ciò riducendo i costi per esecuzione e sfruttando l’hardware in modo molto più efficiente. Il fatto che Maia 200 sia già operativo nella regione US Central di Azure, con l’espansione verso US West 3 e altre aree nei prossimi mesi, dice molto sul livello di maturità del progetto.
Microsoft presenta Maia 200: ecco i dettagli
Non si tratta di un prototipo o di una promessa a lungo termine, ma di una piattaforma che entra subito in produzione. A rafforzare tale approccio c’è anche l’anteprima del Maia SDK, pensato per consentire agli sviluppatori di ottimizzare i carichi di lavoro senza rinunciare alla portabilità del codice. Dal punto di vista tecnico, Maia 200 è costruito attorno a una scelta precisa: l’inferenza a bassa precisione come chiave per far girare modelli sempre più grandi in modo sostenibile. Con oltre 100 miliardi di transistor realizzati a 3 nanometri da TSMC, il chip offre più di 10 petaFLOPS in FP4 e circa 5 petaFLOPS in FP8. Ciò sfruttando core tensor nativi progettati specificamente per tali formati.
Uno dei punti più interessanti è il sottosistema di memoria, spesso vero collo di bottiglia nei sistemi AI. Microsoft ha scelto di ridisegnarlo da zero, combinando 216 GB di HBM3e con una banda di 7 TB/s, una quantità significativa di SRAM on-chip e motori dedicati allo spostamento dei dati. Il risultato è: più dati restano vicino ai core di calcolo, meno si spreca tempo ed energia a spostarli, e meno acceleratori servono per far girare un modello di grandi dimensioni. Secondo Microsoft, tale approccio consente a Maia 200 di superare le soluzioni concorrenti in FP4 e FP8. Con un miglioramento di circa il 30% nel rapporto prestazioni per dollaro rispetto ai sistemi attualmente utilizzati internamente.
Nuovi test per Maia 200
Anche la scalabilità è stata pensata in modo pragmatico. L’architettura a due livelli basata su Ethernet standard, con interconnessioni integrate e un trasporto personalizzato, evita soluzioni proprietarie costose e difficili da gestire. La comunicazione resta il più possibile locale all’interno dei tray e si estende poi a rack e cluster con un numero minimo di salti di rete. Semplificando la programmazione e riducendo sprechi di banda. Sul fronte software e deployment, Maia 200 nasce da un processo di sviluppo insolitamente rapido. Microsoft ha simulato e validato l’intero sistema molto prima di avere il chip finale in mano. Ciò utilizzando ambienti di emulazione su larga scala per testare kernel, formati numerici e persino modelli completi.
Ciò ha permesso di portare i primi modelli in esecuzione a pochi giorni dall’arrivo dell’hardware e di ridurre il tempo per rendere operativo un rack nel data center. Nel breve termine, Maia 200 sarà utilizzato dal team Microsoft Superintelligence per la generazione di dati sintetici e il reinforcement learning, ma non è tutto. L’acceleratore farà parte dell’infrastruttura che alimenta servizi come Microsoft 365 Copilot e Foundry. Ciò con l’obiettivo di diventare uno dei pilastri dell’ecosistema AI di Azure.
