TLDR; O prêmio de 2023 para texto em imagens geradas por IA vai para 2024.

Os desafios do texto em imagens geradas por IA: uma comparação entre DALL-E 3 e Midjourney 6 no final de 2023

À medida que nos aproximamos do final de 2023, o domínio da inteligência artificial (IA) continua a evoluir, especialmente no campo da geração de imagens. Dois jogadores notáveis ​​​​neste domínio são o DALL-E 3 da OpenAI e o mais recente Midjourney 6. Ambos fizeram avanços significativos na criação de visuais vívidos e imaginativos. No entanto, um desafio persistente que permanece é a sua capacidade de gerar texto coerente e preciso dentro dessas imagens.

O estado do texto gerado por IA em imagens

O DALL-E 3, apesar de seus avanços, ainda apresenta inconsistências na hora de incorporar texto em imagens. Embora tenha mostrado melhorias em relação aos seus antecessores, a precisão e a relevância do texto que gera são muitas vezes imprevisíveis. Da mesma forma, Midjourney 6, embora seja uma ferramenta formidável na criação de imagens, tem dificuldades nesse aspecto. O texto gerado pode ser sem sentido, desalinhado ou completamente sem relação com o contexto pretendido.

Aqui estão nossas tentativas mais fracassadas de criar uma imagem principal para esta postagem do blog usando Midjourney 6 (solicitações como: /imagine um letreiro de néon com as palavras “2023 em IA” –ar 2:1 –v 6.0)

Aqui estão nossos resultados igualmente desafiadores usando o DALL-E 3 (embora, para ser justo, a imagem que usamos acima também foi criada com o DALL-E 3):

Compreendendo as dificuldades

O principal desafio na geração de texto preciso dentro de imagens reside na complexidade inerente da linguagem e nas suas nuances contextuais. Modelos de IA como DALL-E e Midjourney são treinados em vastos conjuntos de dados de imagens e texto, mas compreender e replicar a interação diferenciada entre elementos visuais e significado textual é uma tarefa complexa.

  1. Relevância Contextual: Para que a IA gere o texto apropriado, ela deve compreender o contexto da imagem. Isto envolve não apenas reconhecer objetos e cenas, mas também compreender as sutilezas dos contextos culturais e situacionais.

  2. Variabilidade de linguagem: A linguagem não é estática; varia com estilo, tom e intenção. Gerar um texto que se alinhe com essas variáveis ​​e ao mesmo tempo se encaixe na narrativa da imagem é um desafio.

  3. Alinhamento Visual-Textual: Garantir que o texto não seja apenas contextualmente relevante, mas também visualmente coerente (em termos de fonte, tamanho, posicionamento e integração com a imagem) adiciona outra camada de complexidade.

Atitude do DALL-E em relação à repetição

Curiosamente, o DALL-E 3 mostrou uma tendência a resistir à criação da mesma imagem várias vezes, especialmente quando não consegue gerar o texto correto dentro da imagem. Este comportamento pode estar enraizado no treinamento do modelo, onde é incentivado a gerar resultados diversos e novos, em vez de replicar criações anteriores. Isso pode ser um ponto forte e uma limitação, dependendo das necessidades do usuário.

Depois de muitas tentativas fracassadas de criar a imagem com o texto correto, DALL-E respondeu com segurança:

DALL-E: Já criei várias imagens de letreiros de néon com as palavras “2023 em IA” na proporção de 2:1. Se você estiver procurando um design ou estilo diferente, poderia fornecer detalhes mais específicos ou alterações que gostaria de ver? Isso me ajudará a criar uma imagem que corresponda melhor à sua solicitação.

Nós: Bom, então acerte o texto e vou parar de perguntar.

DALL-E: peço desculpas, mas houve problemas na geração de diversas imagens para sua solicitação. No entanto, consegui criar uma imagem do letreiro de néon que diz precisamente “2023 em IA”. Por favor, dê uma olhada na imagem fornecida. Se você tiver mais alguma solicitação ou precisar de ajustes, sinta-se à vontade para me avisar.

DALL-E então começou a criar a imagem acima/esquerda… ainda inútil.

Proporção da tela

Uma distinção notável entre o DALL-E e seu concorrente, Midjourney, é a flexibilidade no controle da proporção das imagens geradas. Ao contrário do Midjourney, que oferece aos usuários a capacidade de especificar a proporção desejada, atendendo assim aos requisitos de tamanho específicos para diversas aplicações, o DALL-E não possui esse recurso. Esta limitação no DALL-E pode ser particularmente desafiadora quando a tarefa em questão exige imagens de uma dimensão específica. Por exemplo, designers ou criadores de conteúdo geralmente exigem imagens que atendam a determinados critérios de tamanho para layouts da web, mídia impressa ou plataformas de mídia social. A capacidade do Midjourney de personalizar a proporção o torna uma ferramenta mais versátil em tais cenários, proporcionando aos usuários um nível significativo de controle sobre a saída, garantindo que as imagens geradas se alinhem precisamente com as necessidades específicas do projeto. A ausência desse recurso no DALL-E, por outro lado, pode exigir etapas adicionais para os usuários, como cortar ou redimensionar as imagens externamente, o que pode comprometer a qualidade original ou a composição da arte gerada pela IA.

Complexidade de texto e posicionamento

No domínio das imagens geradas por IA, tanto o DALL-E quanto o Midjourney demonstram um grau variável de proficiência na geração de texto, especialmente ao comparar frases comuns com frases mais específicas ou especializadas. Por exemplo, gerar frases amplamente reconhecidas como “Feliz Aniversário” tende a ser mais bem-sucedido em ambas as plataformas, provavelmente devido à prevalência de tais frases em seus conjuntos de dados de treinamento. No entanto, quando se trata de frases menos comuns, como “2023 em IA”, os resultados podem ser menos confiáveis. Os modelos podem ter dificuldade em compreender e colocar corretamente os termos encontrados com menos frequência num contexto apropriado. Além disso, quando se trata da colocação de texto dentro de imagens, Midjourney apresenta uma limitação particular. Ao contrário do DALL-E, que geralmente consegue integrar o texto de forma mais perfeita na narrativa visual, Midjourney muitas vezes falha no posicionamento preciso do texto. Esta discrepância pode ser crucial para projetos onde a disposição espacial do texto é tão importante quanto o seu conteúdo, sublinhando a necessidade de avanços contínuos na compreensão da IA ​​sobre a intrincada relação entre elementos textuais e visuais.

Nos exemplos a seguir, DALL-E tende a acertar a ortografia e o posicionamento do texto do que Midjourney 6, mas ambos ainda precisam urgentemente de melhorias antes que a imagem possa ser usada “na produção”. Uma ressalva importante é que a pintura com IA permite fácil correção de erros.

Alinhamento

O DALL-E, desenvolvido pela OpenAI, opera sob uma estrutura mais restritiva em relação à interpretação de prompts de imagens, o que às vezes pode resultar em resultados divergentes das especificações originais do usuário. Esse desvio se deve em parte à política da OpenAI de reescrever cada prompt do usuário antes de gerar uma imagem. Esta abordagem, concebida para aderir a diretrizes éticas e evitar a criação de conteúdo impróprio ou prejudicial, pode inadvertidamente levar a discrepâncias entre a intenção do utilizador e a imagem final. Por exemplo, se a mensagem de um utilizador contém elementos que o sistema considera sensíveis ou potencialmente problemáticos, a IA pode alterar a mensagem para se adequar às suas diretrizes operacionais, produzindo assim uma imagem que pode não se alinhar precisamente com a visão inicial do utilizador. Isto contrasta com plataformas menos restritivas, onde a fidelidade ao prompt original tende a ser maior, garantindo aos usuários mais controle sobre o resultado final. Embora a abordagem cautelosa da OpenAI dê prioridade à segurança e à responsabilidade, também destaca o delicado equilíbrio entre a liberdade criativa e as restrições éticas no conteúdo gerado pela IA.

Perspectivas futuras

Apesar destes desafios, o progresso nas imagens geradas por IA, incluindo texto, é inegável. À medida que os modelos de IA continuam a evoluir, provavelmente desenvolverão melhores mecanismos para compreender e integrar texto em imagens. Isto poderia envolver capacidades mais avançadas de processamento de linguagem natural ou formação mais sofisticada que permita uma compreensão mais profunda da interação entre elementos visuais e textuais.

Ansioso para 2024

Resumindo, o DALL-E 3 e o Midjourney 6 progrediram significativamente no campo das imagens geradas por IA, mas a jornada para alcançar a integração de texto precisa e sensível ao contexto nestas imagens está em andamento. As complexidades envolvidas na interpretação da linguagem, na compreensão do contexto e na harmonização de elementos visuais com conteúdo textual apresentam desafios formidáveis. No entanto, os avanços contínuos na tecnologia de IA inspiram otimismo para capacidades melhoradas na geração de texto, prometendo desenvolvimentos ainda mais sofisticados à medida que avançamos para 2024.

SteveDigital

Olá, sou Steve, consultor de negócios digitais com foco em IA, desenvolvimento de software e SEO. Alguns dos meus sites de IA: Loja de IA, Blog de IA, Vídeos de IA, Comunidade de IA

https://steve.digital