A corrida para fazer a IA menor (e mais inteligente)

Ensinar menos palavras para modelos de linguagem grandes pode ajudá-los a soar mais humanos.

Por Oliver Whang/ New York Times

Quando se trata de chatbots e inteligência artificial, geralmente quanto maior é melhor.

Modelos de linguagem grandes como o ChatGPT e o Bard, que geram texto conversacional e original, melhoram à medida que recebem mais dados. Todos os dias, blogueiros se dedicam à internet para explicar como os últimos avanços – um aplicativo que resume artigos, podcasts gerados por IA, um modelo refinado que pode responder a qualquer pergunta relacionada ao basquete profissional – irão “mudar tudo”.

Mas criar A.I. maior e mais capaz requer poder de processamento que poucas empresas possuem, e há uma crescente preocupação de que um pequeno grupo, incluindo Google, Meta, OpenAI e Microsoft, exercerá um controle quase total sobre a tecnologia.

Além disso, modelos de linguagem maiores são mais difíceis de entender. Eles são frequentemente descritos como “caixas pretas”, até mesmo pelas pessoas que os projetam, e figuras proeminentes no campo expressaram desconforto de que os objetivos da A.I. possam não se alinhar com os nossos. Se maior é melhor, também é mais opaco e mais exclusivo.

Em janeiro, um grupo de jovens acadêmicos trabalhando em processamento de linguagem natural – o ramo da IA focado na compreensão linguística – lançou um desafio para tentar virar esse paradigma de cabeça para baixo. O grupo convocou equipes para criar modelos de linguagem funcionais usando conjuntos de dados que são menos de um décimo de milésimo do tamanho daqueles usados pelos modelos de linguagem grandes mais avançados. Um mini modelo bem-sucedido seria quase tão capaz quanto os modelos de ponta, mas muito menor, mais acessível e mais compatível com os seres humanos. O projeto é chamado de BabyLM Challenge.

“Estamos desafiando as pessoas a pensar pequeno e focar mais na construção de sistemas eficientes para que mais pessoas possam usá-los”, disse Aaron Mueller, cientista da computação da Universidade Johns Hopkins e um dos organizadores do BabyLM.

Alex Warstadt, um cientista da computação da ETH Zurich e outro organizador do projeto, acrescentou: “O desafio coloca questões sobre a aprendizagem da linguagem humana, em vez de ‘Quão grande podemos fazer nossos modelos?’, no centro da conversa.”

Os grandes modelos de linguagem são redes neurais projetadas para prever a próxima palavra em uma determinada frase ou expressão. Eles são treinados para essa tarefa usando um corpus de palavras coletadas de transcrições, sites, romances e jornais online. Um modelo típico faz suposições com base em frases de exemplo e, em seguida, se ajusta dependendo de quão perto ele chega da resposta certa.

Ao repetir esse processo várias vezes, um modelo forma mapas de como as palavras se relacionam umas com as outras. Em geral, quanto mais palavras um modelo é treinado, melhor ele se tornará; cada frase fornece ao modelo contexto e mais contexto se traduz em uma impressão mais detalhada do que cada palavra significa. O GPT-3 da OpenAI, lançado em 2020, foi treinado em 200 bilhões de palavras; O Chinchilla da DeepMind, lançado em 2022, foi treinado em um trilhão.

Para Ethan Wilcox, um linguista da ETH Zurich, o fato de algo não humano poder gerar linguagem apresenta uma oportunidade emocionante: os modelos de linguagem de IA poderiam ser usados para estudar como os humanos aprendem a linguagem?

Por exemplo, o nativismo, uma teoria influente que remonta ao trabalho inicial de Noam Chomsky, afirma que os seres humanos aprendem a linguagem rapidamente e eficientemente porque têm uma compreensão inata de como a linguagem funciona. Mas os modelos de linguagem de máquina também aprendem rapidamente, aparentemente sem uma compreensão inata de como a linguagem funciona – então talvez o nativismo não seja válido.

O desafio é que os modelos de linguagem aprendem de maneira muito diferente dos seres humanos. Os seres humanos têm corpos, vidas sociais e sensações ricas. Podemos sentir o cheiro de adubo, sentir as penas, bater em portas e provar hortelãs. Desde cedo, somos expostos a palavras faladas simples e sintaxes que muitas vezes não são representadas na escrita. Então, o Dr. Wilcox concluiu que um computador que produz linguagem após ser treinado em bilhões de palavras escritas pode nos dizer de forma limitada sobre nosso próprio processo linguístico.

Mas se um modelo de linguagem fosse exposto apenas a palavras que um jovem humano encontra, ele poderia interagir com a linguagem de maneiras que poderiam abordar certas questões que temos sobre nossas próprias habilidades.

Então, junto com meia dúzia de colegas, Dr. Wilcox, Mr. Mueller e Dr. Warstadt conceberam o BabyLM Challenge, para tentar empurrar os modelos de linguagem um pouco mais perto da compreensão humana. Em janeiro, eles lançaram um chamado para equipes treinarem modelos de linguagem com o mesmo número de palavras que um humano de 13 anos encontra – aproximadamente 100 milhões. Os modelos candidatos seriam testados quanto à sua capacidade de gerar e captar nuances da linguagem, e um vencedor seria declarado.

Eva Portelance, linguista da Universidade McGill, encontrou o desafio no dia em que foi anunciado. Sua pesquisa atravessa a linha muitas vezes nebulosa entre ciência da computação e linguística. As primeiras incursões em IA, na década de 1950, foram impulsionadas pelo desejo de modelar as capacidades cognitivas humanas em computadores; a unidade básica de processamento de informações em IA é o “neurônio”, e os primeiros modelos de linguagem nas décadas de 1980 e 1990 foram diretamente inspirados pelo cérebro humano.

Mas à medida que os processadores se tornaram mais poderosos e as empresas começaram a trabalhar em produtos comercializáveis, os cientistas da computação perceberam que muitas vezes era mais fácil treinar modelos de linguagem em enormes quantidades de dados do que forçá-los em estruturas informadas psicologicamente. Como resultado, disse a Dra. Portelance, “eles nos dão texto que é semelhante ao humano, mas não há conexão entre nós e como eles funcionam”.

Para os cientistas interessados em entender como a mente humana funciona, esses grandes modelos oferecem insights limitados. E porque eles exigem um enorme poder de processamento, poucos pesquisadores podem acessá-los. “Apenas um pequeno número de laboratórios da indústria com enormes recursos pode se dar ao luxo de treinar modelos com bilhões de parâmetros em trilhões de palavras”, disse o Dr. Wilcox.

“Ou mesmo carregá-los”, acrescentou o Sr. Mueller. “Isso tem feito com que a pesquisa no campo pareça um pouco menos democrática ultimamente”.

O BabyLM Challenge, disse a Dra. Portelance, pode ser visto como um passo longe da corrida armamentista por modelos de linguagem maiores e um passo em direção a uma IA mais acessível e mais intuitiva.

O potencial de um programa de pesquisa desse tipo não foi ignorado pelos maiores laboratórios da indústria. Sam Altman, CEO da OpenAI, recentemente disse que aumentar o tamanho dos modelos de linguagem não levaria ao mesmo tipo de melhorias vistas nos últimos anos. E empresas como Google e Meta também têm investido em pesquisas sobre modelos de linguagem mais eficientes, informados por estruturas cognitivas humanas. Afinal, um modelo que pode gerar linguagem quando treinado com menos dados pode ser potencialmente escalonado também.

Qualquer lucro que um BabyLM bem-sucedido possa ter para aqueles por trás do desafio, os objetivos são mais acadêmicos e abstratos. Até mesmo o prêmio subverte o prático. “Apenas orgulho”, disse o Dr. Wilcox.

Alex Warstadt, um cientista da computação da ETH Zurich e outro organizador do projeto, acrescentou: “O desafio coloca questões sobre a aprendizagem da linguagem humana, em vez de ‘Quão grande podemos fazer nossos modelos?’, no centro da conversa.”

Os grandes modelos de linguagem são redes neurais projetadas para prever a próxima palavra em uma determinada frase ou expressão. Eles são treinados para essa tarefa usando um corpus de palavras coletadas de transcrições, sites, romances e jornais online. Um modelo típico faz suposições com base em frases de exemplo e, em seguida, se ajusta dependendo de quão perto ele chega da resposta certa.

Ao repetir esse processo várias vezes, um modelo forma mapas de como as palavras se relacionam umas com as outras. Em geral, quanto mais palavras um modelo é treinado, melhor ele se tornará; cada frase fornece ao modelo contexto e mais contexto se traduz em uma impressão mais detalhada do que cada palavra significa. O GPT-3 da OpenAI, lançado em 2020, foi treinado em 200 bilhões de palavras; O Chinchilla da DeepMind, lançado em 2022, foi treinado em um trilhão.

Para Ethan Wilcox, um linguista da ETH Zurich, o fato de algo não humano poder gerar linguagem apresenta uma oportunidade emocionante: os modelos de linguagem de IA poderiam ser usados para estudar como os humanos aprendem a linguagem?

Por exemplo, o nativismo, uma teoria influente que remonta ao trabalho inicial de Noam Chomsky, afirma que os seres humanos aprendem a linguagem rapidamente e eficientemente porque têm uma compreensão inata de como a linguagem funciona. Mas os modelos de linguagem de máquina também aprendem rapidamente, aparentemente sem uma compreensão inata de como a linguagem funciona – então talvez o nativismo não seja válido.

O desafio é que os modelos de linguagem aprendem de maneira muito diferente dos seres humanos. Os seres humanos têm corpos, vidas sociais e sensações ricas. Podemos sentir o cheiro de adubo, sentir as penas, bater em portas e provar hortelãs. Desde cedo, somos expostos a palavras faladas simples e sintaxes que muitas vezes não são representadas na escrita. Então, o Dr. Wilcox concluiu que um computador que produz linguagem após ser treinado em bilhões de palavras escritas pode nos dizer de forma limitada sobre nosso próprio processo linguístico.

Mas se um modelo de linguagem fosse exposto apenas a palavras que um jovem humano encontra, ele poderia interagir com a linguagem de maneiras que poderiam abordar certas questões que temos sobre nossas próprias habilidades.

Então, junto com meia dúzia de colegas, Dr. Wilcox, Mr. Mueller e Dr. Warstadt conceberam o BabyLM Challenge, para tentar empurrar os modelos de linguagem um pouco mais perto da compreensão humana. Em janeiro, eles lançaram um chamado para equipes treinarem modelos de linguagem com o mesmo número de palavras que um humano de 13 anos encontra – aproximadamente 100 milhões. Os modelos candidatos seriam testados quanto à sua capacidade de gerar e captar nuances da linguagem, e um vencedor seria declarado.

Eva Portelance, linguista da Universidade McGill, encontrou o desafio no dia em que foi anunciado. Sua pesquisa atravessa a linha muitas vezes nebulosa entre ciência da computação e linguística. As primeiras incursões em IA, na década de 1950, foram impulsionadas pelo desejo de modelar as capacidades cognitivas humanas em computadores; a unidade básica de processamento de informações em IA é o “neurônio”, e os primeiros modelos de linguagem nas décadas de 1980 e 1990 foram diretamente inspirados pelo cérebro humano.

Mas à medida que os processadores se tornaram mais poderosos e as empresas começaram a trabalhar em produtos comercializáveis, os cientistas da computação perceberam que muitas vezes era mais fácil treinar modelos de linguagem em enormes quantidades de dados do que forçá-los em estruturas informadas psicologicamente. Como resultado, disse a Dra. Portelance, “eles nos dão texto que é semelhante ao humano, mas não há conexão entre nós e como eles funcionam”.

Para os cientistas interessados em entender como a mente humana funciona, esses grandes modelos oferecem insights limitados. E porque eles exigem um enorme poder de processamento, poucos pesquisadores podem acessá-los. “Apenas um pequeno número de laboratórios da indústria com enormes recursos pode se dar ao luxo de treinar modelos com bilhões de parâmetros em trilhões de palavras”, disse o Dr. Wilcox.

“Ou mesmo carregá-los”, acrescentou o Sr. Mueller. “Isso tem feito com que a pesquisa no campo pareça um pouco menos democrática ultimamente”.

O BabyLM Challenge, disse a Dra. Portelance, pode ser visto como um passo longe da corrida armamentista por modelos de linguagem maiores e um passo em direção a uma IA mais acessível e mais intuitiva.

O potencial de um programa de pesquisa desse tipo não foi ignorado pelos maiores laboratórios da indústria. Sam Altman, CEO da OpenAI, recentemente disse que aumentar o tamanho dos modelos de linguagem não levaria ao mesmo tipo de melhorias vistas nos últimos anos. E empresas como Google e Meta também têm investido em pesquisas sobre modelos de linguagem mais eficientes, informados por estruturas cognitivas humanas. Afinal, um modelo que pode gerar linguagem quando treinado com menos dados pode ser potencialmente escalonado também.

Qualquer lucro que um BabyLM bem-sucedido possa ter para aqueles por trás do desafio, os objetivos são mais acadêmicos e abstratos. Até mesmo o prêmio subverte o prático. “Apenas orgulho”, disse o Dr. Wilcox.

https://www.nytimes.com/2023/05/30/science/ai-chatbots-language-learning-models.html

Comentários estão desabilitados para essa publicação