Non si ferma la corsa di Microsoft nel campo dell’intelligenza artificiale. Dopo una settimana già densa di novità, è arrivata la famiglia Harrier, una serie di modelli AI embedding open source pensata per potenziare le capacità semantiche delle applicazioni. E i numeri, stando ai primi benchmark, sembrano davvero notevoli.
La famiglia Microsoft Harrier si compone di tre varianti. La più potente conta 27 miliardi di parametri, quella intermedia si attesta a 600 milioni, mentre la versione più compatta scende fino a 270 milioni di parametri. Una scelta che permette di coprire esigenze molto diverse, dai progetti più ambiziosi fino alle implementazioni più leggere.
Ma cosa fanno esattamente questi modelli? Per chi non mastica il gergo tecnico ogni giorno, vale la pena spiegarlo in modo semplice. I modelli embedding sono algoritmi che prendono dati come testo, immagini o audio e li trasformano in vettori numerici capaci di rappresentarne il significato profondo. Questa trasformazione è il passaggio chiave per abilitare funzioni come la ricerca semantica, i sistemi di raccomandazione e i suggerimenti intelligenti nelle applicazioni basate sull’intelligenza artificiale.
Primi nei benchmark e supporto multilingua
Il colosso di Redmond non ha nascosto una certa soddisfazione per i risultati raggiunti da Harrier. Nel benchmark MTEB-v2, uno dei riferimenti più utilizzati per valutare le prestazioni dei modelli embedding, la famiglia Harrier si è piazzata al primo posto. Parliamo di un traguardo che ha significato superare anche modelli proprietari del calibro di Gemini Embedding 2 di Google, il che dà la misura di quanto Microsoft stia investendo in questo segmento.
I modelli Harrier supportano oltre 100 lingue e sono in grado di gestire un contesto fino a 32.000 token. Dettaglio tecnico importante: l’output è a dimensione fissa, una scelta progettuale che facilita parecchio l’integrazione nei sistemi già esistenti senza dover ripensare l’architettura da zero.
Open source per favorire l’adozione tra gli sviluppatori
C’è un aspetto che merita attenzione particolare, e riguarda la natura open source di tutta la famiglia Harrier. Microsoft ha scelto questa strada per eliminare i vincoli di licenza e favorire l’adozione da parte degli sviluppatori, rendendo i modelli accessibili senza barriere significative. Una mossa strategica, considerando quanto la competizione nel settore dei modelli embedding stia diventando serrata.
L’obiettivo dichiarato è migliorare quello che in gergo viene chiamato “grounding” delle applicazioni AI, ovvero la capacità di collegare le risposte generate dall’intelligenza artificiale a dati reali e verificabili. È un tema cruciale: la qualità di un assistente virtuale o di un motore di ricerca semantica dipende moltissimo da quanto bene il modello sottostante riesce a “ancorarsi” alle informazioni concrete, evitando risposte vaghe o fuorvianti.
