ChatGPT passa a gerar imagens profissionais e até livros sem errar textos

Wait 5 sec.

A OpenAI quer que o ChatGPT seja utilizado não só para gerar imagens “divertidas”, mas também para o público profissional. Com o lançamento do ChatGPT Images 2.0 nesta terça-feira (21), a companhia promete mais qualidade nessas imagens e textos mais legíveis em diferentes idiomas, corrigindo um problema de longa data da inteligência artificial (IA).Esse é um novo modelo lançado cerca de um ano após a chegada do primeiro, que até chegou a ser adiado para o público geral após o sucesso instantâneo. Um dos grandes sucessos foi replicar a estética dos Estúdios Ghibli, que o cofundador Hayao Miyazaki chegou a considerar as imagens “um insulto à própria vida”. O novo modelo, entretanto, quer seguir uma linha diferente.Confira também: Anthropic lança Claude Design, uma IA que faz templates e slidesExemplo de imagem gerada pelo ChatGPT Images 2.0. É possível notar diversos elementos visuals, diferente estruturas textuais e idiomas. (Imagem: OpenAI/Divulgação)Para a OpenAI, o ChatGPT Images 2.0 representa uma mudança maior em termos de uso profissional. Entre as melhorias, o novo gerador de imagens pode seguir melhor as instruções detalhadas, ajustar melhor a posição de objetos e tem um maior senso de composição.A empresa também destaca as capacidades de pensamento e raciocínio do novo modelo. Por isso, garante, ele se destaca ao gerar imagens completas e com textos legíveis. Também é possível gerar mais de uma imagem com um único prompt em texto, recurso inédito da ferramenta. Ele pode gerar coisas como:Infográficos detalhados;Diagramas científicos;Livros e mangás inteiros;Plantas de imóveis;Guias completos;Convites e panfletos;Embalagens;Cardápios;Imagens de divulgação;Cartões-postais.Infográficos completos, incluindo apoios visuais, agora podem ser gerados pelo ChatGPT. (Imagem: OpenAI/Divulgação)Em uma demonstração à imprensa, na qual o TecMundo participou, o ChatGPT Images 2.0 de fato pôde gerar imagens complexas recheadas de textos legíveis e organizados. Outro destaque é a capacidade de gerar imagens em alta resolução (até 2K) e em diferentes proporções (dez, no total), como modelos verticais (9:16), ultra wide (21:9) e retrato (3:4), por exemplo.O Images 2.0, por contar com as capacidades de pensamento e raciocínio, pode fazer buscas na internet e verificar melhor os resultados — o que normalmente leva um pouco mais de tempo. A OpenAI cita que isso “permite que ele assuma mais o trabalho pesado entre a ideia e a imagem, especialmente quando a precisão, informações atualizadas, consistência e coesão visual são mais importantes”.Realismo e menos errosA proposta do ChatGPT Images 2.0 é também trazer um nível ainda maior “de especificidade e fidelidade à criação de imagens”. A empresa garante que ele é mais fiel às idéias, o que na prática se resume em seguir as instruções, preservar os detalhes e ajustar coisas “que frequentemente quebram modelos de imagem”, tais como “textos pequenos, iconografia, elementos de UI, composições densas e restrições estilísticas sutis”.“Em vez de obter algo vagamente próximo do que você pretendia, você obtém algo que pode realmente usar”, destaca a companhia.O novo gerador de imagens do ChatGPT promete também mais realismo. (Imagem: OpenAI/Divulgação)Outra melhoria é a capacidade de compreensão de novos idiomas. Os modelos da empresa eram mais práticos no inglês e idiomas de língua latina, mas agora prometem gerar imagens com textos de escritas em japonês, coreano, chinês, hindi e bengali, por exemplo.O lançamento também promete mais realismo e resultados que são mais fiéis ao que o usuário solicita. Segundo a empresa, o modelo possui “data de corte de conhecimento de dezembro de 2025” e por isso compreende melhor o mundo.ChatGPT Images 2.0 já está disponívelJá é possível utilizar o ChatGPT Images 2.0 a partir de hoje. Ele está disponível para todos os usuários do ChatGPT e Codex, mas existem algumas diferenças. As versões compatíveis com os modelos de raciocínio e pensamento estão disponíveis para assinantes dos planos Plus, Pro, Business e Enterprise.A API da OpenAI também já suporta o modelo gpt-image-2, embora os preços possam variar “dependendo da qualidade e resolução selecionadas para a imagem”.A companhia também destacou que o serviço possui salvaguardas para inputs e outputs, além de analisar as possíveis queixas dos próprios usuários. As imagens também possuem identificadores (C2PA e SynthID) e, garante a OpenAI, poderão ser monitoradas quando se tratam de imagens que envolvam política.