Por que a IA tem tanta dificuldade em desenhar mãos e dedos?

Se você pedir para uma ferramenta de inteligência artificial criar a imagem de um cavalo tomando chá com um cachorro, ela fará isso de forma inquestionável. O mesmo vale para um urso de pelúcia andando de skate na Times Square. Mas pedir o retrato de uma simples mão humana é um desafio gigantesco para as máquinas. O resultado pode ser uma mãos com quatro, seis ou até oito dedos. Ou então, a mão será “fundida” com qualquer objeto próximo.

Essa limitação dos geradores de imagem virou piada e até um traço notável da tecnologia – muitas vezes, é justamente o que desmascara conteúdos falsos. Na famosa foto inverídica do Papa Francisco usando uma jaqueta puffer, por exemplo, os dedos do líder católico foram uma das primeiras provas apontadas sobre a inautenticidade da imagem — ele segurava um copo de café, mas seus dedos pareciam amassados, e as mãos pareciam ser mais joviais do que as de um idoso de 87 anos. Mas, afinal, porque a IA não consegue desenhar mãos?

Também é difícil para humanos

Embora pequena, a mão é uma das regiões do corpo com mais de 20 articulações. Tudo isso com uma rica quantidade de detalhes, que envolvem unhas, cutículas, veias, linhas, vincos e mais. Não à toa, é um dos desenhos anatômicos mais desafiadores inclusive para artistas, não só para a IA.

Para além dos detalhes, as mãos podem assumir uma quantidade infinita de poses e gestos. Podem estar segurando algo, podem estar parcialmente em um bolso. Podem ter dedos esticados, parcialmente dobrados ou fechados em punho. Em suma, essa grande quantidade de informações sobre uma única parte do corpo cria vários obstáculos para que elas sejam desenhadas de forma realista.

“Por que ele acerta dois braços e não acerta cinco dedos? Porque as posições anatômicas dos dedos são muito mais complexas do que as do braço. Então, às vezes, ele se confunde com essas imensas composições possíveis nos nossos dedos e a interação entre os próprios dedos”, explica Alexandre Chiavegatto, professor de inteligência artificial na Faculdade de Saúde Pública da USP e colunista do Estadão.

Mãos são pequenas e, na maior parte das imagens reais, elas não são o destaque das imagens. Por vezes, estão escondidas atrás de uma perna ou em um bolso. Ou podem ser ofuscadas pela iluminação, por um objeto que está sendo segurado ou até mesmo por luvas. Assim, as representações nítidas de mãos em diversas poses acabam sendo minoria no conjunto de dados de treinamento dos modelos de IA. E os conjuntos incompletos geram resultados insatisfatórios.

Não é coincidência, portanto, que outros desenhos anatômicos que não aparecem tanto quanto um rosto ou o cabelo, por exemplo, também saiam meio esquisitos em imagens geradas. Orelhas, dedos dos pés e até mesmo dentes do canto da boca podem ser fatores destoantes da realidade em imagens geradas artificialmente.

“Modelos de linguagem não têm uma visão de mundo embutida neles. Eles aprendem via dados. No caso de modelos de imagem, aprendem via pixels das imagens. E, em princípio, ninguém inseriu no algoritmo o fato de que uma mão tem cinco dedos”, pontua Chiavegatto.

Além disso, as ferramentas “estudam” em bancos de imagens bidimensionais. Não sabem reconhecer, portanto, as diversas posições que uma mão e seus cinco dedos conseguem assumir em um mundo tridimensional. E isso, como consequência, torna muito mais limitada a sua reprodução fidedigna.

https://www.estadao.com.br/link/cultura-digital/por-que-a-inteligencia-artificial-tem-tanta-dificuldade-em-desenhar-maos-e-dedos/

Comentários estão desabilitados para essa publicação