Parte 3 - Imagine um cachorro.

Como a IA gera uma imagem?

set 06, 2024

Como já pontuamos nos textos anteriores, a inteligência artificial precisa de um propósito a servir. É a partir deste propósito que ela terá sua definição delimitada e uma hierarquia estabelecida de prioridades (desenvolvimento a qualquer custo, ou há limites éticos? Quais são esses limites?). É a partir dessas prioridades que, na hora que algo muito errado acontecer, nós poderemos estabelecer quem são os responsáveis, por exemplo.

É importante pensar essa definição do propósito de forma sistêmica, para além da tarefa que a IA irá executar. Por exemplo, uma IA generativa de imagens servirá para o quê? Quais tipos de trabalho ela pode otimizar? Como ela poderá ser integrada no cotidiano das pessoas? Quais trabalhos estão ameaçados com o seu uso?

Aqui, vamos entender mais como funciona a inteligência artificial generativa de imagem, como o DALL-E e o Midjourney.

Mas antes, quero te pedir uma coisa:

Imagine um cachorro.

Você pode ter imaginado o seu próprio pet. Ou o de alguém que você conhece. Ele pode ter pelo claro como o de um golden retriever ou pode ter pelo escuro, como o de um pastor alemão. Pode ter o focinho comprido ou curto. Os pelos podem ser compridos e lisos, ou ele pode ter o pelo curtinho, como o de um bulldog francês. Ele pode estar em um quintal, ou pode estar no sofá da sala. Enfim, existem N variáveis e cada leitor terá imaginado um cachorro diferente.

Eu pedi para o DALL-E imaginar um cachorro e olha o que ele devolveu:

Imagem gerada pelo DALL-E a partir do prompt “Imagine um Cachorro”.

Um cachorro completamente psicodélico, não realista. Isso já me gera algumas perguntas: como ele sabe o que é um cachorro? Por que o cachorro tem essas características?

Para responder a essas perguntas, vamos explorar alguns tópicos para entender como é a estrutura de uma IA generativa de imagens. Mais especificamente, de imagens de cachorros.

Banco de dados de imagens

O primeiro passo é ter uma grande quantidade de imagens de cachorros. Quanto mais imagens, melhor. A partir deste banco de dados e à classificação dessas imagens (geralmente as legendas que encontramos das imagens), a IA sabe que aquele conjunto de pixels RGB é um cachorro. Mas até aí ela ainda não aprendeu o que é um cachorro, ou seja, o que configura um cachorro.

Transformação das imagens em pontos de dados RGB

Cada imagem é um conjunto de pixels com números RGB que determinam um valor de cor. A IA não enxerga uma cor, mas sim um número. As imagens são matrizes numéricas e a partir dessas matrizes e de um algoritmo de aprendizagem de máquina, a IA passa a criar dimensões para classificar o que é um cachorro.

Etapas de visão computacional de inteligência artificial — Elaboração própria. Imagens: reprodução do Wikimedia Commons.

Criação de N dimensões para classificação das imagens

A criação das dimensões nada mais é do que quebrar as imagens em milhares de pedacinhos que ajudam o algoritmo a aprender o que determina se aquela imagem contém ou não um cachorro. Vou exemplificar de um jeito bem superficial, apenas para ilustrar. Mas, no final do texto, vou deixar alguns vídeos mais aprofundados para quem se interessar mais.

Elaboração própria. Imagens: reprodução do Wikimedia Commons

Espaço latente multidimensional

Com a criação de N dimensões (ou variáveis), cria-se o Espaço Latente Multidimensional, que é o espaço onde estão todas as possibilidades das variáveis. Observando os eixos dos gráficos acima, fica um pouco mais fácil de entender.

Por exemplo: em um extremo de um eixo temos o cachorro com o pelo mais curto possível e no outro, o cachorro com o pelo mais comprido, ao passear por este eixo temos todas os possíveis comprimentos de pelos de cachorros. Se cruzarmos com todas as possibilidades de claridade do pelo, começamos a ter ainda mais possibilidades de pelos de cachorros. E por aí vai.

Isso significa que podemos pedir para a IA criar a imagem de qualquer cachorro exatamente como estamos imaginando?

Não. A IA é limitada pelo seu banco de dados inicial, ou seja, pelo banco de dados que está disponível para o seu treinamento. O que aconteceria se nós só tivéssemos alimentado essa IA generativa de imagens de cachorros com imagens de bulldogs franceses, e disséssemos para ela que aquilo é um cachorro?

Toda vez que eu pedisse para ela me gerar uma imagem de um cachorro, ela me geraria alguma versão de um bulldog francês. Ela é incapaz de imaginar outras possibilidades de cachorro para além daquilo que existe em seu limitado banco de dados.

E isso nos leva para a próxima parte da nossa série de textos, na qual abordaremos um dos principais problemas da inteligência artificial hoje: o enviesamento de um banco de dados.

Vídeos para aprofundar:

AI art, explained (Vox)

AI Art: How artists are using and confronting machine learning | HOW TO SEE LIKE A MACHINE (The Museum of Modern Art)

The moment we stopped understanding AI [AlexNet] (Welch Labs)

Tomun

Discussão sobre este post

Pronto para mais?