MiMo-V2.5 è il nuovo modello di intelligenza artificiale multimodale firmato Xiaomi, e rappresenta un passo avanti piuttosto netto rispetto a quanto visto finora dal laboratorio AI dell’azienda cinese. Non si tratta di un semplice aggiornamento: qui cambiano architettura, capacità e persino il modello di prezzo per chi lo utilizza via API. E soprattutto, è completamente open source.
Un modello che vede, sente e ragiona
La caratteristica più significativa di MiMo-V2.5 è la capacità di elaborare immagini, video e audio in modo nativo, senza bisogno di moduli esterni da integrare. Un unico modello capace di gestire tutto insieme, con una finestra di contesto che raggiunge il milione di token. Per dare un’idea concreta, si parla di quantità di testo paragonabili a interi libri o sessioni di lavoro estremamente lunghe.
Dal punto di vista tecnico, MiMo-V2.5 conta 310 miliardi di parametri totali, ma sfrutta un’architettura chiamata Sparse MoE (Mixture of Experts) che ne attiva soltanto 15 miliardi alla volta. Questo significa che il modello è enorme sulla carta, però non mobilita tutta la sua potenza su ogni singola richiesta. Il risultato è un’efficienza operativa decisamente superiore rispetto a un modello denso di dimensioni comparabili.
L’addestramento ha seguito cinque fasi distinte: prima il testo puro per costruire il nucleo linguistico, poi l’allineamento degli encoder visivi e audio, quindi il pre addestramento multimodale su larga scala. A seguire, il fine tuning supervisionato con estensione progressiva del contesto (da 32.000 fino a un milione di token), e infine un ulteriore passaggio di rinforzo con tecniche di RL per affinare il ragionamento e le capacità agentiche.
Sfida aperta a Google e Anthropic
Stando ai benchmark pubblicati da Xiaomi, MiMo-V2.5 si confronta direttamente con Gemini 3 Pro sul fronte video e con Claude Sonnet 4.6 nei task multimodali agentici. Ovviamente sono dati forniti dall’azienda stessa, quindi vanno valutati con cautela. Però la direzione è piuttosto chiara: Xiaomi punta a competere nella stessa lega dei modelli frontier di Google e Anthropic, cosa che fino a poco tempo fa sarebbe sembrata quantomeno ambiziosa.
La mossa probabilmente più interessante per la comunità degli sviluppatori riguarda proprio la natura open source del progetto. Pesi del modello, tokenizer e scheda tecnica completa sono disponibili su Hugging Face, nelle versioni V2.5 base e V2.5. Chiunque può scaricarlo, eseguirlo in locale o adattarlo alle proprie esigenze senza dover necessariamente passare per le API di Xiaomi.
Prezzi più bassi e niente sovrapprezzo sul contesto
Per chi preferisce utilizzare MiMo-V2.5 tramite servizio, Xiaomi ha rivisto al ribasso i prezzi dei Token Plan. La versione Pro costa ora 2 crediti per token, e soprattutto è stato eliminato il moltiplicatore aggiuntivo per la finestra di contesto da un milione di token, che in precedenza prevedeva un costo separato. Un dettaglio tutt’altro che trascurabile per chi impiega questi modelli in ambienti di produzione.