Financial Times; As startups europeias correm para resolver um problema dos chatbots de inteligência artificial que se tornaram uma sensação nos últimos meses: a qualidade das respostas em outras línguas que não o inglês.
A Silo AI, de Helsinque, lançará nesta quarta-feira uma iniciativa em idiomas europeus, incluindo o sueco, o islandês, o norueguês e o dinamarquês, para ajudar na construção de novos grandes modelos de linguagem, que servem de base para os chamados produtos de inteligência artificial (IA) generativos, como o ChatGPT, da OpenAI, e o Bard, do Google.
A empresa finlandesa se junta a outros grupos que fazem o mesmo em idiomas como o alemão, o hebraico e o árabe para tentar melhorar a tecnologia por trás dos chatbots, como são conhecidos os programas que dão respostas realistas a comandos escritos.
Os planos chegam enquanto empresas pelo mundo começam a adotar softwares de IA desenvolvidos por nomes como a OpenAI, financiada pela Microsoft, e o Google, o que levou críticos a expressar preocupação sobre a dependência excessiva em relação a uma tecnologia fechada e de alto poder, criada por um pequeno grupo de participantes em sua maioria dos Estados Unidos.
“Uma iniciativa europeia precisa […] capturar conhecimento a partir de uma perspectiva europeia e para que possamos controlar que tipo de dados está sendo inserido nisso”, disse o executivo-chefe da Silo AI, Peter Sarlin.
Hoje, o Bard, do Google, funciona apenas em inglês. O ChatGPT, da OpenAI, opera em dezenas de idiomas, incluindo hindi, farsi e alguns europeus, entre outros. No entanto, sua precisão não é a mesma em todos as línguas, de acordo com pessoas que o testaram amplamente.
A Silo AI tenta resolver o problema reunindo uma equipe de acadêmicos experientes em IA de várias partes da Europa. Eles vão construir, “treinar” e operar modelos em línguas escandinavas no supercomputador LUMI mais potente do continente, que está localizado na Finlândia e foi modificado para rodar softwares de IA generativo.
A iniciativa da nova equipe, conhecida como SiloGen, conta com planos para ser ampliada para mais idiomas com o tempo.
A questão, entretanto, não é puramente linguística. Criar modelos na Europa dará condições de garantir que a qualidade dos dados usados para treinar o sistema seja representativa da cultura e da ética de países fora dos EUA, inclusive em temas de privacidade, segundo Sarlin.
O modelo da Silo AI será de código aberto, de forma que poderá ser analisado e adaptado por qualquer pessoa que queira operá-lo. Em contraste, os modelos da OpenAI e do Google são fechados, o que permite às empresas deixar de compartilhar seus dados confidenciais ou protegidos por direitos autoriais.
Também há outros projetos em andamento na Europa, como os da OpenGPT-X e da LEAM, que são iniciativas alemãs para desenvolver modelos de linguagem de código aberto. Os modelos da OpenGPT-X estão sendo construídos em conjunto com a startup alemã de inteligência artificial Aleph Alpha.
Quando o projeto foi lançado em 2022, a equipe por trás da OpenGPT- X advertiu que a falta de acesso a detalhes de modelos como o GPT-4 ameaçava a “soberania digital e a independência de mercado” da Europa em IA, o que poderia prejudicar o crescimento de empresas e das pesquisas europeias.
Marco Trombetti, executivo-chefe da empresa italiana de tradução digital Translated, disse que os principais chatbots foram programados para oferecer seus melhores resultados em inglês, o que “não é justo com o resto do mundo”.
Para enfrentar isso, sua empresa criou uma ferramenta de tradução em tempo real para o ChatGPT que funciona em 60 idiomas e tem por objetivo melhorar as respostas do serviço.
“É como um salto de cinco anos para trás, em termos de tecnologia, para o mundo que não fala inglês, o que efetivamente cria um mundo de duas velocidades”, disse Trombetti sobre as atuais ferramentas generativas de IA.
Não é apenas da Europa que preocupações do tipo vêm surgindo. A Agência de Inovação de Israel gastou 7,5 milhões shekels israelenses (cerca de US$ 2,1 milhões) para criar a Associação de Processamento de Linguagem Natural. O grupo tenta reverter a “qualidade ruim e insuficiente do reconhecimento de fala em hebraico e árabe em vários tipos de sistemas computadorizados”, disse o executivo-chefe da empresa, Dror Bin.
Bin disse que, como o financiamento para pesquisa de IA em países de língua árabe é limitado e como há relativamente poucos falantes de hebraico no mundo, o temor é que eles sejam deixados para trás, já que os produtos de IA são integrados a aplicativos comerciais como o Microsoft Office e o Google Workspace.
“A qualidade da compreensão e reconhecimento da fala humana em hebraico e árabe é menor e constitui uma barreira para a realização e aplicação de serviços avançados”, acrescentou.