Google lanza Flex y Priority: dos modos de inferencia para su API que permiten elegir entre ahorrar hasta un 75% o ejecutar 2x más rápido con los mismos modelos

Wait 5 sec.

Google ha introducido dos nuevos modos de inferencia para su API de Gemini: Flex (procesamiento diferido con hasta un 75% de descuento) y Priority (ejecución con la latencia más baja posible, a 2x del precio estándar). Ambos modos usan exactamente los mismos modelos —Gemini 2.5 Flash, Pro y Gemma 4— sin diferencia en calidad de respuesta; la diferencia es cuándo y con qué prioridad se procesan las solicitudes.Flex está diseñado para cargas de trabajo que no necesitan respuesta inmediata: procesamiento por lotes, evaluaciones masivas, generación de datos sintéticos, clasificación de grandes volúmenes. Las solicitudes se procesan cuando hay capacidad disponible, con un SLA de completar el trabajo dentro de un plazo razonable (no instantáneo). El ahorro del 75% lo convierte en la opción más barata del mercado para tareas de alto volumen.Priority es lo opuesto: para producción de baja latencia donde cada milisegundo cuenta. Asistentes en tiempo real, APIs de cara al cliente, agentes que necesitan responder al instante. Paga el doble del precio estándar pero obtiene prioridad máxima en la cola de procesamiento.Mi valoración: Google está aplicando a la IA el modelo de pricing que las aerolíneas usan con los asientos: el mismo producto, tres precios distintos según cuándo lo necesites. Es inteligente porque permite a los desarrolladores optimizar costes sin cambiar de modelo. Un pipeline de datos que procesa facturas puede usar Flex y pagar una fracción; un chatbot de atención al cliente puede usar Priority y garantizar respuesta instantánea. OpenAI ya ofrece Batch (mitad de precio) y Priority (doble); Google iguala la jugada con un descuento más agresivo (75% vs 50%).Preguntas frecuentes¿Qué es Flex? Modo de inferencia diferida para la API de Gemini. Mismo modelo, 75% más barato, procesamiento no inmediato. ¿Qué es Priority? Modo de baja latencia máxima. Mismo modelo, 2x precio, ejecución prioritaria. ¿Cambia la calidad? No. Son los mismos modelos (Gemini 2.5, Gemma 4). Solo cambia cuándo y con qué prioridad se procesa.La noticia Google lanza Flex y Priority: dos modos de inferencia para su API que permiten elegir entre ahorrar hasta un 75% o ejecutar 2x más rápido con los mismos modelos fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.