Xiaomi non fa solo smartphone e robot aspirapolvere: il suo laboratorio AI ha appena rilasciato MiMo-V2.5, un modello linguistico di grandi dimensioni che, sulla carta, compete direttamente con i nomi più noti del settore. Non è un aggiornamento cosmetico: rispetto alla versione precedente cambia l'architettura, cambiano le capacità e cambia anche il modello di prezzo per chi lo usa via API.La novità più rilevante è che MiMo-V2.5 capisce immagini, video e audio in modo nativo, senza moduli separati da collegare. Un solo modello che vede, sente e ragiona su tutto insieme, con una finestra di contesto che arriva fino a un milione di token, ovvero quantità di testo paragonabili a interi libri o sessioni di lavoro molto lunghe. I numeri tecnici sono importanti per capire dove si posiziona questo modello: 310 miliardi di parametri totali, ma con un'architettura Sparse MoE (Mixture of Experts) che ne attiva solo 15 miliardi alla volta. In pratica, è un modello enorme che però non usa tutta la sua potenza su ogni singola richiesta, il che lo rende molto più efficiente da eseguire rispetto a un modello denso di pari dimensioni.L'addestramento è passato attraverso cinque fasi distinte: prima il testo puro per costruire il nucleo linguistico, poi l'allineamento degli encoder visivi e audio, poi il pre-addestramento multimodale su larga scala, poi il fine-tuning supervisionato con estensione progressiva del contesto (da 32K fino a 1 milione di token), e infine un ulteriore rinforzo con tecniche di RL per affinare ragionamento e capacità agentiche.Sui benchmark che Xiaomi cita, MiMo-V2.5 si confronta direttamente con Gemini 3 Pro sui video e con Claude Sonnet 4.6 sui task multimodali agentici. Sono confronti fatti dall'azienda stessa, quindi vanno presi con le pinze, ma la direzione è chiara: Xiaomi vuole giocare nella stessa lega dei modelli frontier di Google e Anthropic. La mossa forse più interessante per chi sviluppa è che MiMo-V2.5 è completamente open source: pesi, tokenizer e scheda tecnica completa sono disponibili su Hugging Face (V2.5-base e V2.5). Chi vuole può scaricarlo, eseguirlo in locale o adattarlo ai propri scopi senza passare per le API di Xiaomi.Per chi invece preferisce usarlo tramite servizio, Xiaomi ha anche semplificato e abbassato i prezzi dei Token Plan: la versione Pro costa ora 2 crediti per token, e soprattutto non si paga più il moltiplicatore per la finestra di contesto da 1 milione di token, che prima era a pagamento separato. Un dettaglio concreto per chi usa questi modelli in produzione.Il panorama dei modelli AI open source si sta affollando rapidamente, e la vera sfida per MiMo-V2.5 sarà dimostrare nel tempo che le performance sui benchmark si traducono in utilità reale, soprattutto nelle applicazioni agentiche dove i modelli devono fare cose, non solo rispondere a domande.L'articolo MiMo-V2.5: il modello AI multimodale di Xiaomi sfida Google e Anthropic ed è open source sembra essere il primo su Smartworld.