Microsoft AI ha anunciado el lanzamiento de tres modelos fundacionales propios que generan texto, voz e imágenes, en lo que supone la señal más clara hasta la fecha de que la compañía está construyendo su propio stack de IA multimodal para reducir su dependencia de OpenAI.MAI-Transcribe-1 transcribe voz a texto en 25 idiomas y es 2,5 veces más rápido que la oferta Azure Fast actual de Microsoft. MAI-Voice-1 genera audio a partir de texto y puede producir 60 segundos de audio en un segundo, con soporte para creación de voces personalizadas. El tercer modelo (aún sin nombre detallado públicamente) se centra en generación de imágenes.Los modelos se integran directamente en productos de Microsoft: MAI-Transcribe-1 alimentará las transcripciones de Teams, y los tres estarán disponibles a través de Azure. Mustafa Suleyman, que lidera la iniciativa de independencia en IA de Microsoft, posiciona a la compañía como un actor serio en desarrollo de modelos fundacionales, no solo como distribuidor de los modelos de OpenAI.Según Bloomberg, Microsoft aspira a tener modelos de IA de gran escala y frontera propios para 2027, lo que confirma que la relación con OpenAI, aunque sigue vigente (inversión de miles de millones, integración en Copilot), está evolucionando hacia un modelo de menos dependencia y más competencia interna.Mi valoración: era cuestión de tiempo. Microsoft paga a OpenAI miles de millones al año por uso de API y ese coste crece con cada usuario de Copilot. Construir modelos propios para tareas específicas (transcripción, voz, imágenes) donde los modelos de OpenAI son excesivos (y caros) es pura lógica empresarial. No significa que Microsoft vaya a dejar de usar GPT-5.4, pero sí que va a usar sus propios modelos donde el coste-rendimiento sea más favorable. Para los usuarios, esto debería traducirse en funciones más rápidas y baratas en Teams, Office y Azure.Preguntas frecuentes¿Microsoft deja de usar OpenAI? No. Pero está construyendo modelos propios para tareas específicas donde puede ser más eficiente y barato. ¿Qué modelos ha lanzado? MAI-Transcribe-1 (voz a texto, 25 idiomas, 2,5x más rápido), MAI-Voice-1 (texto a voz, 60 seg en 1 seg), y un modelo de imágenes. ¿Cuándo tendrá modelos de frontera propios? Bloomberg reporta que Microsoft aspira a tener modelos de gran escala para 2027.La noticia Microsoft lanza tres modelos fundacionales propios de IA: transcripción, voz e imágenes, señalando que ya no quiere depender solo de OpenAI fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.