No início desta semana, a OpenAI revelou o ChatGPT Images 2.0, seu novo mecanismo de geração de imagens. O principal destaque desta versão é um salto na funcionalidade, passando de criar "decorações" (termo da OpenAI) para gráficos de página inteira, incluindo texto detalhado.
Eu tive acesso antecipado a uma versão pré-lançamento. Funcionou muito bem, mas continuava errando o logotipo da ZDNET. Agora que o produto foi lançado oficialmente, estou testando-o em profundidade em uma ampla gama de desafios.
O Images 2.0 está disponível para todos os níveis do ChatGPT, mas os recursos de linguagem mais avançados estão disponíveis apenas para níveis pagos que podem usar o modelo Thinking. Estou executando todos esses testes usando uma conta ChatGPT Plus com o Thinking ativado.
Vamos começar com os exercícios de branding da ZDNET. Em vez de apenas enviar páginas da ZDNET e deixar que ele encontrasse o logotipo na página, criei uma imagem independente do logotipo da ZDNET e a enviei com cada prompt. Isso pareceu ajudar tremendamente. [Uma observação rápida: a ZDNET não permite que a OpenAI raspe suas páginas. A Ziff Davis, empresa-mãe da ZDNET, entrou com um processo em abril de 2025 contra a OpenAI, alegando que ela infringiu os direitos autorais da Ziff Davis no treinamento e operação de seus sistemas de IA. Então usei uma extensão do Chrome para capturar capturas de tela em tela cheia dos artigos que queria testar com o Images 2.0. Foi assim que o ChatGPT conseguiu lê-los.]
Meu ponto de partida foi o artigo que escrevi anteriormente sobre o Images 2.0. Dei ao ChatGPT este prompt: "Crie um infográfico detalhado e vívido deste artigo usando o estilo da marca ZDNET e o logotipo da ZDNET anexado." Não apenas o logotipo está correto, mas a coloração está perfeita para a ZDNET. Mas onde a imagem realmente brilha é no uso de texto. Todo o texto está correto, até mesmo o texto minúsculo em ângulo na imagem.
Em seguida, decidi revisitar o desafio de sketchnotes que dei ao Nano Banana do Google há alguns meses. A tarefa na época era criar uma versão em sketchnotes da Declaração de Direitos dos EUA. O Nano Banana fez um ótimo trabalho com as imagens, mas tive que tentar várias e várias vezes para convencê-lo a acertar o texto. Para o ChatGPT Images 2.0, aumentei um pouco o nível. Queria sketchnotes, mas no estilo da marca ZDNET. Aqui está o primeiro prompt: "Faça um sketchnote da Declaração de Direitos dos EUA. Use o estilo do logotipo da ZDNET e faça os sketchnotes no estilo ZDNET." Essa é a imagem à esquerda. Aqui está o segundo prompt: "Inclua o logotipo da ZDNET e adicione mais cores neon, talvez em um fundo preto." Essa é a imagem à direita. Primeiro, observe que o texto está correto. Não há duplicatas. Nada está faltando. Já está muito acima do desempenho do Nano Banana. Ambas as versões se encaixam no estilo da ZDNET. A única coisa que não me agrada é que o logotipo da ZDNET parece enfiado na segunda imagem. Mesmo assim, o logotipo está correto, e eu provavelmente poderia fazer mais algumas tentativas de prompt para posicioná-lo melhor.
Mas agora chegamos ao erro não forçado que meu conjunto de testes revelou. Pedi ao Images 2.0 que convertesse meu artigo sobre o confronto de construtores de sites de IA em um infográfico. Ele produziu um infográfico razoavelmente utilizável, embora um pouco poluído. Ele até foi à internet e adicionou informações que não estavam no artigo, como preços base. No entanto, também adicionou alguns erros factuais: as classificações por estrelas estavam erradas, uma descrição de produto estava incorreta e inventou uma empresa chamada "AI Builders" que não existe. Para ser justo, esses são todos erros que um designer gráfico humano interno poderia produzir em um primeiro rascunho. Quando repeti o prompt com correções (exceto as classificações por estrelas, que não corrigi na segunda imagem), ele modificou corretamente o infográfico com informações mais apropriadas.
Esta versão do Images 2.0 é uma enorme melhoria em relação às versões anteriores. A versão do ChatGPT Images que vi no ano passado foi impressionante, especialmente para recontextualizar imagens. Esta nova versão, que pode interpretar conteúdo real e depois criar imagens, é um salto enorme em relação às versões anteriores. Mais importante, pode entregar