ChatGPT Images 2.0 ya rinde texto creíble en menús, infografías y mockups: el cambio que hace al modelo utilizable en trabajo profesional

Wait 5 sec.

OpenAI lanzó el 21 de abril ChatGPT Images 2.0, un nuevo modelo de generación de imágenes (gpt-image-2 en la API) que resuelve por fin el problema más persistente de los generadores anteriores: el texto dentro de las imágenes. Donde DALL-E 3 producía menús de restaurante mexicano con platos inventados como «enchuita» o «churiros», el nuevo modelo genera texto legible y coherente directamente utilizable en producción profesional. Amanda Silberling lo cubre en TechCrunch. La compañía describe la pieza más significativa con una afirmación que pocas veces utiliza en sus lanzamientos: el modelo es «el primer modelo de imágenes con capacidades de pensamiento», capaz de buscar en la web, generar varias imágenes desde un solo prompt y verificar sus propias creaciones.El despliegue es escalonado. Todos los usuarios de ChatGPT y Codex (incluidos los gratuitos) tienen acceso al modelo desde el lanzamiento; los usuarios de pago acceden a outputs avanzados con el modo «Thinking» reservado a Plus, Pro, Business y Enterprise. La API gpt-image-2 también está disponible con precios variables según calidad y resolución, llegando hasta 2K de forma estándar y 4K experimental vía proveedores como fal.ai. En el primer día del lanzamiento, ChatGPT Images 2.0 escaló al primer puesto en todas las categorías del Image Arena leaderboard con un margen de 242 puntos, el mayor liderazgo nunca registrado en esa medición.El problema del texto: por qué importaba tantoLos generadores de imágenes con IA históricamente fallaban en una tarea aparentemente simple: escribir palabras dentro de la imagen. La razón era arquitectónica. Los modelos basados en difusión (como DALL-E 3) reconstruyen imágenes a partir de ruido aleatorio, un proceso que es excelente para texturas, formas y composiciones generales pero terrible para los patrones precisos que requiere la tipografía. Una «M» mal generada puede pasar como «Bal», una «ñ» puede aparecer sin tilde, los caracteres asiáticos se distorsionan hasta perder significado. Para trabajos profesionales (diseño de menús, infografías, mockups de UI, materiales de marketing), eso convertía a las herramientas de IA en juguetes para inspirar conceptos, no en herramientas de producción.ChatGPT Images 2.0 resuelve esto por dos vías. Primera, una arquitectura distinta que OpenAI no ha explicado públicamente (rechazaron contestar a esa pregunta en el press briefing) pero que claramente ya no depende exclusivamente de difusión pura. Segunda, la capacidad de «pensar» antes de generar: el modelo planifica el layout, decide dónde va cada elemento textual, verifica su propia salida y rehace lo que considera defectuoso. Esa diferencia se nota cuando le pides un infográfico: en lugar de inventar números, genera un layout coherente con datos plausibles y los etiqueta correctamente.Multilingüe en serioUna pieza llamativa: el modelo ahora rinde texto en escrituras no latinas. Japonés, coreano, chino, hindi y bengalí se generan con coherencia interna, no como caracteres distorsionados que un hablante nativo identifica como falsos al instante. Esto abre el modelo a mercados donde los generadores anteriores eran inutilizables. Un diseñador en Tokio o en Mumbai puede ahora usar la herramienta para mockups locales sin que el resultado sea inservible. La precisión declarada por terceros que han probado el modelo apunta a un 99% de exactitud a nivel de carácter en escrituras latinas, CJK, hindi y bengalí.En el mercado de generación de imágenes con IA en 2026 ya conviven varios modelos punteros con perfiles distintos, donde Midjourney v7 sigue dominando en estética pura, Nano Banana Pro destaca en velocidad y la nueva ChatGPT Images 2.0 reclama el liderazgo en texto y consistencia para uso profesional.Modo Thinking: hasta 8 imágenes consistentes desde un promptEl modo Thinking, reservado a usuarios de pago, introduce una capacidad nueva: generar hasta 8 imágenes desde un único prompt manteniendo personajes, objetos y estilo visual consistentes. Esto convierte al modelo en una herramienta válida para storyboards, cómics multipanel, secuencias de cutscene en videojuegos, lanzamientos de campaña multiformato (mismo personaje en horizontal, vertical y cuadrado para distintas plataformas). Antes hacía falta usar técnicas de inpainting o cadenas de prompts cuidadosamente formuladas para conseguir consistencia. Ahora es una llamada al modelo. Los estudios pequeños y agencias creativas tienen una primitiva nueva en su toolkit que no existía antes del 21 de abril.La consistencia también se aplica al multipanel: un cómic de seis viñetas con el mismo personaje en distintas situaciones se genera coherentemente, sin que el rostro mute entre paneles ni la paleta de colores cambie. Es una funcionalidad que Disney y Pixar usan internamente desde hace décadas con su pipeline propio, y que ahora se democratiza al alcance de cualquier ilustrador independiente.El contexto competitivoChatGPT Images 2.0 entra en un mercado que se ha agitado mucho en los últimos meses. Google ha empujado con fuerza la familia Nano Banana, primero con la versión Pro integrada en Gemini 3 Pro y después con la variante Flash optimizada para velocidad y coste reducido. La estrategia de Google con Nano Banana Pro pasó de la integración en Gemini a la expansión en productos como Search, NotebookLM, Slides, Vids y AI Mode, convirtiendo la generación de imágenes en una capa transversal del ecosistema. Adobe ha seguido un camino distinto con la integración de múltiples modelos (Nano Banana Pro, FLUX.1 Kontext, Firefly nativo) en Photoshop y Firefly, dando al usuario libertad de elegir el motor según la tarea. Midjourney v7 mantiene su nicho en calidad artística cinematográfica.OpenAI ha jugado la carta del integrado total: Images 2.0 vive dentro de ChatGPT, lo que significa acceso para cientos de millones de usuarios desde el primer día sin necesidad de aprender una herramienta nueva. La compañía también nota que las restricciones (guardrails) son más estrictas en esta versión: el modelo bloquea generación de IP con copyright y contenido político engañoso con más rigor que en versiones previas, lo que será una alegría para los abogados de OpenAI y una frustración para los usuarios que querían generar memes con personajes de Marvel.Limitaciones reconocidasOpenAI documenta limitaciones honestamente. El modelo tiene problemas con razonamiento físico preciso (por qué un objeto se sostiene de cierta manera, cómo cae una sombra dado un ángulo solar específico) y con texturas extremadamente densas o diagramas técnicos altamente detallados. La compañía marca esos como áreas de desarrollo futuro. El cutoff de conocimiento del modelo está en diciembre de 2025, lo que afecta a prompts que incluyan referencias culturales recientes (eventos de noticias de 2026, lanzamientos posteriores a esa fecha) que el modelo no reconoce contextualmente.Mi valoraciónChatGPT Images 2.0 es el primer modelo de generación de imágenes que cruza el umbral de «juguete creativo» a «herramienta de producción profesional» para el público amplio. La diferencia se mide en una métrica simple: ¿puedo entregar este resultado al cliente sin retoque manual? Para infografías, menús, mockups, materiales de marketing y comics multipanel, la respuesta es ahora sí en una proporción significativa de casos. No es un cambio marginal; es un cambio cualitativo que mueve el corte entre lo que se hace en Photoshop y lo que se hace con IA. La consecuencia industrial es severa para un segmento de diseñadores junior cuyo trabajo era exactamente este: generar rápido versiones limpias de conceptos para que el director de arte revisara. Esa capa intermedia de la pirámide creativa pierde justificación económica frente a un equipo más pequeño con buen criterio que sepa pilotar Images 2.0. El criterio sigue siendo humano (qué generar, qué aceptar, cómo iterar); la ejecución mecánica deja de necesitar mano de obra humana en muchos casos. Para los profesionales senior, la ventana se abre. Un diseñador con 10 años de experiencia puede ahora producir el output de un equipo de 5 en la fase de ideación y exploración. La reducción de tiempos en los ciclos de cliente es brutal: lo que antes era una semana de iteraciones puede ser ahora una tarde de prompts. La parte incómoda es la honestidad en la comunicación: ¿se le cuenta al cliente que el primer borrador lo hizo una IA en 5 minutos? Cada despacho tomará su decisión, pero la realidad económica empujará en una dirección clara. La pregunta más interesante a mediano plazo no es técnica sino económica. Si el coste marginal de generar una infografía o un mockup tiende a cero, ¿qué pasa con el valor del trabajo creativo profesional? La respuesta probable se parece a lo que pasó con la fotografía cuando los smartphones democratizaron la captura: el valor se desplaza desde la ejecución técnica hacia la dirección creativa, la curaduría y la capacidad de articular qué problema visual se está resolviendo. Las herramientas no eliminan a los profesionales; cambian qué hacen.Preguntas frecuentes¿Está disponible en español? Sí. El modelo soporta español en texto integrado en imágenes, además de inglés y muchos otros idiomas latinos. La calidad es alta tanto en castellano como en variantes latinoamericanas.¿Puedo usarlo gratis? Sí, todos los usuarios de ChatGPT (incluidos los del plan gratuito) tienen acceso al modelo. El modo Thinking (con generación múltiple consistente y razonamiento avanzado) está reservado a planes de pago: ChatGPT Plus (20 dólares al mes), Pro, Business o Enterprise.¿Cómo se compara con Midjourney v7 o Nano Banana Pro? Images 2.0 lidera en precisión de texto y consistencia multi-imagen. Midjourney v7 mantiene ventaja en estética puramente artística y atmósferas cinematográficas. Nano Banana Pro es más rápido y mejor integrado al ecosistema Google. La elección depende del caso de uso.La noticia ChatGPT Images 2.0 ya rinde texto creíble en menús, infografías y mockups: el cambio que hace al modelo utilizable en trabajo profesional fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.