L’integrazione dell’intelligenza artificiale all’interno delle vite di ogni utente sta diventando sempre più profonda e costante, i software in questione infatti si stanno evolvendo giorno dopo giorno garantendo all’utenza funzionalità utili per non dire indispensabili in grado di rendere la vita di tutti i giorni più semplice, basti pensare che è possibile affidare a questi software, ad esempio l’analisi di interi archivi di giurisprudenza o si può chiedere a un assistente di tenere traccia di conversazioni lunghe mesi.
Questa tipologia di contesto rappresenta rappresenta 1 mol di informazioni decisamente importante da gestire per il software che deve in tempo reale tenere sotto controllo ogni informazione, tutto ciò rappresenta una delle sfide tecnologiche più arduo del nostro tempo, questo poiché ogni volta che è un modello genera una nuova parola deve infatti ripercorrere l’intera cronologia di dati precedenti, un processo che mette a dura prova le memorie e le capacità di calcolo anche dei modelli più potenti.
Un nuovo procedimento
Per superare i limiti di questo modello, la società californiana ha presentato una nuova potente tecnica di parallelismo, chiamata Helix Parallelism, ovvero un approccio innovativo pensato per funzionare in perfetta sinergia con la nuova generazione di GPU Blackwell e le loro interconnessioni ultraveloci, il problema principale fino a questo momento era legato a due processi, il primo è rappresentato dalla continua rilettura della KV cache, una sorta di memoria a breve termine, dove il linguaggio immagazzina i token del contesto passato, il secondo è il caricamento dei pesanti modelli neurali per ogni singola parola da elaborare, precedentemente la soluzione era il parallelismo tensoriale, il quale distribuiva il carico su più GPU, tuttavia questo modello una volta superata una certa soglia, diventava inefficiente dal momento che le GPU iniziavano a duplicare la KV cache, consumando risorse preziose inutilmente.
Ecco che il nuovo approccio di Nvidia esordisce, Helix Tratta il carico di lavoro come un blocco unico, suddividendolo in maniera intelligente, perciò durante la fase di analisi del contesto distribuisce la massiccia KV cache tra le varie GPU utilizzando una nuova metodologia denominata come KV parallelism, la quale evita ogni duplicazione ottimizzando l’accesso alla memoria, in parole povere ogni GPU gestisce solo una fetta della cronologia invece che l’intera cronologia duplicata, rendendo il processo decisamente più snello.
