Mistral lanza Voxtral TTS: un modelo de voz open source tan pequeño que cabe en un smartwatch, clona tu voz en cinco segundos y compite con ElevenLabs

Wait 5 sec.

La empresa francesa Mistral, uno de los nombres más relevantes de la IA europea, ha lanzado Voxtral TTS, un modelo de texto a voz (TTS) open source diseñado para ejecutarse en dispositivos de borde como smartwatches, smartphones y portátiles. El modelo soporta nueve idiomas (inglés, francés, alemán, español, holandés, portugués, italiano, hindi y árabe), puede clonar una voz con una muestra de menos de cinco segundos, y tiene un tiempo hasta el primer audio (TTFA) de 90 milisegundos para una muestra de 10 segundos y 500 caracteres. En otras palabras: empieza a hablar casi antes de que termines de pedirle que hable.Voxtral TTS está basado en Ministral 3B, el modelo compacto de Mistral, y se posiciona como competidor directo de ElevenLabs, Deepgram y OpenAI en el mercado de voz para empresas. «Nuestros clientes nos pedían un modelo de voz. Así que construimos uno pequeño que cabe en un smartwatch, un smartphone o un portátil. Su coste es una fracción de cualquier otra cosa en el mercado, pero ofrece rendimiento de última generación», dijo Pierre Stock, VP de operaciones científicas de Mistral, a TechCrunch.Lo que diferencia a Voxtral TTS: edge, open source y clonación de vozTres características técnicas separan a Voxtral TTS de sus competidores más conocidos. La primera es el tamaño: al estar basado en un modelo de 3.000 millones de parámetros, puede ejecutarse localmente en dispositivos con recursos limitados. Eso significa inferencia on-device, sin necesidad de enviar audio a servidores en la nube. Para empresas que manejan datos sensibles (salud, banca, gobierno), esta capacidad es un argumento de venta potente.La segunda es la clonación de voz: con menos de cinco segundos de audio de referencia, Voxtral TTS captura no solo el timbre de la voz, sino acentos sutiles, inflexiones, entonaciones e irregularidades naturales del habla (ums, ahs, pausas, repeticiones). El resultado es una voz que suena humana, no robótica. Stock enfatizó que ese era el objetivo de diseño: que la voz sea indistinguible de una persona real.La tercera es el cambio de idioma sin pérdida de identidad vocal. Puedes clonar la voz de alguien en español y hacer que hable en árabe manteniendo las características de su voz original. Para doblaje, traducción en tiempo real o asistentes de voz multilingües, esto es un salto funcional significativo.En evaluaciones humanas, Mistral dice que Voxtral TTS iguala a ElevenLabs Flash v2.5 en naturalidad y se sitúa a la par del modelo v3 de ElevenLabs en interacciones más realistas. El factor de tiempo real (RTF) es de 6x, lo que significa que un clip de 10 segundos se renderiza en unos 1,6 segundos.La estrategia de Mistral: una plataforma multimodal completaVoxtral TTS no es un producto aislado. Completa una suite de voz que Mistral ha ido construyendo durante 2025 y 2026. A principios de este año, la empresa lanzó dos modelos de transcripción (uno para procesamiento por lotes y otro para tiempo real con baja latencia). En julio de 2025, presentó Voxtral, su primera familia de modelos de audio para comprensión del habla (transcripción + entendimiento contextual de hasta 40 minutos de audio).Stock describió la visión completa: «Planeamos tener una plataforma end-to-end que pueda manejar flujos multimodales de entrada, incluyendo audio, texto e imagen, y también de salida. El principal beneficio es que obtienes mucha más información con un sistema agéntico end-to-end que soporta audio como entrada o salida.»El modelo está disponible hoy en Mistral Studio, Le Chat y Hugging Face bajo licencia Creative Commons. La apuesta de Mistral es clara: que el open source y la posibilidad de personalización impulsen la adopción empresarial por encima de competidores propietarios como ElevenLabs o el TTS de OpenAI.Mi valoración: Mistral está haciendo con la voz lo que hizo con los LLMs: ofrecer modelos open source de calidad competitiva que las empresas pueden ejecutar, personalizar y desplegar en sus propios servidores sin depender de APIs de terceros. En un mercado de voz dominado por soluciones propietarias de alto coste, un modelo que cabe en un smartwatch, clona voces en cinco segundos y es gratuito tiene el potencial de democratizar los asistentes de voz empresariales. La pregunta es si la calidad se mantiene en producción a escala: los benchmarks de laboratorio son una cosa; mantener naturalidad vocal en miles de llamadas de atención al cliente simultáneas es otra muy distinta.Preguntas frecuentes¿Qué es Voxtral TTS? Un modelo open source de texto a voz de Mistral que soporta 9 idiomas, clona voces en 5 segundos y se ejecuta en dispositivos de borde (smartphones, smartwatches).¿Con quién compite? ElevenLabs, Deepgram y OpenAI TTS. Mistral dice que iguala a ElevenLabs en naturalidad en evaluaciones humanas.¿Es gratuito? Sí. Disponible en Hugging Face bajo licencia Creative Commons. También accesible en Mistral Studio y Le Chat.¿Cuánto tarda en generar audio? 90 ms hasta el primer audio. Un clip de 10 segundos se genera en ~1,6 segundos (factor de tiempo real 6x).La noticia Mistral lanza Voxtral TTS: un modelo de voz open source tan pequeño que cabe en un smartwatch, clona tu voz en cinco segundos y compite con ElevenLabs fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.