Google ha lanzado un nuevo benchmark que califica cuáles son las mejores IA para programar apps para Android. De acuerdo con la compañía, la idea detrás de este proyecto es crear un sistema que evalúe la capacidad de los modelos en tareas de desarrollo, lo cual ayudaría a aumentar la productividad. Para sorpresa de nadie, Gemini 3.1 Pro está catalogado como la mejor IA, aunque Claude y GPT-5.2 lo siguen de cerca.Según el gigante tecnológico, los benchmarks generales no sirven para medir la competencia en Android. Escribir código genérico en Python no es lo mismo que gestionar el ciclo de vida de una actividad o implementar una arquitectura limpia en una app móvil. Google cree que Android Bench servirá como referencia para que los programadores no pierdan el tiempo con herramientas que no les ayudarán en el proceso.A juzgar por la tabla de clasificación, los modelos de Google y Anthropic son los mejores para desarrollar aplicaciones. Gemini 3.1 Pro Preview tiene una calificación del 72,4%, un porcentaje que representa el promedio de 100 pruebas exitosas en 10 ejecuciones. El modelo más top de la compañía alcanza un intervalo de confianza de entre el 65 y el 79%, una métrica que se usa para medir la fiabilidad estadística de los resultados.Por detrás de Google se encuentran Claude Opus 4.6 y GPT-5.2 Codex, con 66,6 % y 62,5 %, respectivamente. Le siguen Claude Opus 4.5 y Gemini 3 Pro, aunque Claude Sonnet 4.6 también se cuela por detrás. El modelo intermedio de Anthropic demuestra que supera hasta en cinco veces a Gemini 2.5 Flash, una IA que, con trabajos, alcanza el 10% de confiabilidad.Cómo funciona Android BenchA diferencia de otras pruebas, Android Bench se compone de 100 tareas seleccionadas de un universo inicial de casi 39,000 pull requests en GitHub. Google filtró repositorios con más de 500 estrellas y cambios realizados en los últimos tres años, de modo que los modelos se enfrentarían a estándares actuales y no a código heredado.Según la web de Android Bench, las puntuaciones más altas se otorgan a los modelos que demuestran fluidez en cuatro pilares: interfaz de usuario, asincronía, persistencia e inyección de dependencias.El 71% de las pruebas se basan en Kotlin, frente al 25% de Java. Además, aunque la mayoría de los repositorios en GitHub son aplicaciones, el benchmark inclina un 58% de sus tareas hacia el desarrollo de librerías. El tamaño de las tareas varía desde correcciones de menos de 27 líneas hasta cambios de más de 400 líneas, cubriendo prácticamente todo el espectro de la jornada laboral de un desarrollador senior.Para evitar que una IA apruebe simplemente por haber memorizado el código durante su entrenamiento, Google utiliza salvaguardas y una verificación manual de los pasos seguidos por el modelo. Esto garantiza que ese 72.4% de Gemini sea capacidad de resolución en tiempo real.La mejor IA para el desarrollo de aplicaciones de Android, según GoogleSegún la tabla de Android Bench, estos son los mejores modelos de IA para desarrollar apps de su sistema operativo móvil.Gemini 3.1 Pro Preview: 72.4%Claude Opus 4.6: 66.6%GPT-5.2 Codex: 62.5%Claude Opus 4.5: 61.9%Gemini 3 Pro Preview: 60.4%Claude Sonnet 4.6: 58.4%Claude Sonnet 4.5: 54.2%Gemini 3 Flash Preview: 42%Gemini 2.5 Flash: 16.1%Seguir leyendo: Esta es la mejor IA para desarrollar apps de Android, según Google