Reddit processa Perplexity por dados roubados para treinar IAs

Há oito anos, a SerpApi, uma startup em Austin, Texas, mergulhou de cabeça no mundo bizantino do uso de robôs para “extrair” os algoritmos de pesquisa do Google, para que pudesse coletar informações para ajudar os clientes a aparecerem em posições mais altas nos resultados de pesquisa.

Então surgiu o ChatGPT da OpenAI, dando início a uma revolução na inteligência artificial (IA). À medida que mais empresas de tecnologia começaram a criar chatbots de IA para acompanhar essa tendência, elas precisaram de grandes quantidades de dados para treinar seus modelos de IA — dados que a SerpApi já havia coletado.

Praticamente da noite para o dia, um grupo de empresas como a SerpApi — conhecidas como “coletoras de dados” — encontrou um novo negócio vendendo dados coletados do Google para empresas que buscavam treinar seus chatbots de IA.

Na quarta-feira, 22, o fórum da internet Reddit decidiu combater os coletores de dados. A plataforma entrou com uma ação no Tribunal Distrital dos Estados Unidos para o Distrito Sul de Nova York, alegando que quatro empresas haviam roubado seus dados ao coletar resultados de pesquisa do Google nos quais o conteúdo do Reddit aparecia.

Três dessas empresas — SerpApi; uma startup lituana, Oxylabs; e uma empresa russa, AWMProxy — venderam dados para empresas de IA como OpenAI e Meta, de acordo com o processo. A quarta empresa, Perplexity, é uma startup de São Francisco que desenvolve um mecanismo de busca de IA.

“Reconhecendo que não têm permissão para acessar os dados diretamente do Reddit, os réus criaram um esquema para extrair os dados dos resultados de pesquisa do Google”, afirma a ação judicial do Reddit. “Eles fazem isso mascarando suas identidades, ocultando suas localizações e disfarçando os web scrapers como pessoas comuns para contornar ou ignorar as restrições técnicas destinadas a impedi-los. E eles fazem isso em escala industrial.”

O Reddit disse que estava buscando uma liminar permanente contra as empresas, bem como indenização financeira, e queria proibir o uso ou a venda de quaisquer dados do Reddit coletados anteriormente.

Representantes da SerpApi, Perplexity, Oxylabs e AWMProxy não responderam imediatamente aos pedidos de comentários.

A coleta de dados da internet é uma prática antiga, embora controversa. Nos primórdios da internet, o Google criou um império usando robôs para coletar páginas da web e categorizá-las, oferecendo então um mecanismo de busca que vasculhava essas categorias para ajudar as pessoas a encontrar as informações de que precisavam. Ao longo do tempo, as empresas começaram a coletar dados do Google e vender suas descobertas para empresas que buscavam aparecer em posições mais altas nos resultados de busca do Google.

A relação entre os coletores e os coletados era vista como simbiótica. A coleta de dados do Google ajudava a direcionar o tráfego da web para os sites dos editores. Aqueles que coletavam dados do Google podiam vender essas informações para ajudar os editores da web a construir seus sites de forma que fossem mais facilmente encontrados pelo Google.

“Era todo o ecossistema original da web”, disse Doug Leeds, cofundador da Really Simple Licensing, uma organização sem fins lucrativos que ajuda editores e criadores a obter compensação quando a inteligência artificial usa seus trabalhos. “Naquela época, isso não era necessariamente um problema, porque havia um método de monetização para todas as empresas envolvidas.”

Agora, alguns acham que a relação passou de simbiótica para parasitária. As empresas de IA têm usado seus próprios bots para coletar o máximo de informações possível sem pagar pelos dados. Em resposta, empresas como a Reddit começaram a bloquear seus sites para impedir que as empresas de IA lucrassem livremente com os dados.

Editoras de livros como a Simon & Schuster e organizações de notícias como o The New York Times — que processou a OpenAI e a Microsoft, alegando violação de direitos autorais — fecharam acordos para vender licenças de seus dados por milhões de dólares.

O Reddit, que é usado por mais de 416 milhões de pessoas por semana, disse acreditar ter dados particularmente valiosos. Seus usuários conversam sobre uma grande variedade de tópicos, desde marcas de maquiagem e raças de cães suíços até videogames de RPG e dicas de viagens internacionais. Essas discussões podem ajudar as empresas de IA que buscam melhorar as habilidades de “linguagem natural” de seus chatbots.

Em 2023, o Reddit pediu que pessoas de fora começassem a pagar pelo acesso aos seus dados. Ele firmou acordos de licenciamento com o Google, que usa os dados do Reddit para treinar seu chatbot Gemini, e com a OpenAI, que precisa de dados para treinar o ChatGPT.

Mas nem todas as empresas quiseram assinar acordos. Em vez disso, algumas encontraram uma maneira de usar as informações do Reddit por meio de scrapers de dados, de acordo com o processo.

SerpApi, Oxylabs e AWMProxy começaram a coletar bilhões de consultas de pesquisa do Google por mês e usaram essas pesquisas para revelar dados do Reddit, segundo o processo judicial do Reddit. As empresas então empacotaram esses dados e os revenderam a terceiros, que os utilizaram para treinar seus sistemas de inteligência artificial.

A Perplexity foi uma dessas compradoras, de acordo com o processo judicial do Reddit. A Perplexity já havia coletado dados do Reddit no passado sem pagamento, mas concordou em parar depois que o Reddit enviou uma ordem de cessação e desistência. Mesmo assim, as citações aos dados do Reddit nos resultados de pesquisa da Perplexity aumentaram “quarenta vezes”, afirma a ação judicial. Na ação, o Reddit afirmou ter gasto “dezenas de milhões de dólares” em sistemas anti-coleta.

“O modelo de negócios da Perplexity consiste efetivamente em pegar o conteúdo do Reddit dos resultados de pesquisa do Google”, alimentá-lo em um modelo de IA e “chamá-lo de novo produto”, afirmou o processo.

O Reddit afirmou ter armado uma armadilha para a Perplexity ao criar uma “publicação de teste” em seu site que “só poderia ser rastreada pelo mecanismo de pesquisa do Google e não era acessível em nenhum outro lugar da internet”. Em poucas horas, os resultados de pesquisa da Perplexity revelaram o conteúdo dessa postagem de teste, afirma a ação judicial.

O Google, que não é parte na ação judicial do Reddit, tentou, sem sucesso, impedir o SerpApi e outros scrapers de dados, de acordo com a ação judicial e reportagens anteriores do The Information.

“O Google sempre respeitou ativamente as escolhas que os sites fazem por meio do robots.txt, mas, infelizmente, há vários scrapers furtivos que não fazem o mesmo”, disse José Castaneda, porta-voz do Google, em um comunicado. Ele se referia à forma como os editores da web podem optar por não serem coletados pelo bot “robots.txt” do Google.

O Reddit pode estar travando uma batalha difícil. Embora o processo tenha sido aberto em Nova York, algumas das startups de coleta de dados, como as visadas no processo, estão sediadas na Europa e na Ásia. E muitas dessas empresas encontraram soluções alternativas contra as proibições de coleta.

Ainda assim, o Reddit planeja persistir. Em junho, processou a Anthropic, acusando a empresa de inteligência artificial de usar ilegalmente seus dados. Na quarta-feira, a rede social afirmou em seu processo que continuaria tomando medidas para proteger seus dados contra o uso não autorizado.

https://www.estadao.com.br/link/empresas/reddit-processa-perplexity-e-outras-startups-por-compra-e-venda-de-dados-roubados-para-treinar-ias

Reddit processa Perplexity por dados roubados para treinar IAs

Tags