Futuros da IA e do jornalismo serão decididos na disputa OpenAI e New York Times

THE WASHINGTON POST – Se um veículo de comunicação copiasse um monte de artigos do New York Times e os publicasse em seu site, isso provavelmente seria visto como uma violação flagrante de direitos autorais. Mas o que acontece quando uma empresa de tecnologia copia esses mesmos artigos, combina-os com inúmeros outros trabalhos copiados e os usa para treinar um chatbot de inteligência artificial (IA) capaz de conversar sobre praticamente qualquer assunto?

Essa é a questão legal no centro do processo que o Times moveu contra a OpenAI e a Microsoft em um tribunal federal, alegando que as empresas usaram ilegalmente “milhões” de artigos protegidos por direitos autorais para ajudar a desenvolver os modelos de IA por trás de ferramentas como o ChatGPT e o Bing. É o mais recente, e alguns acreditam ser o mais forte, de uma série de processos que acusam empresas de IA de violação de propriedade intelectual.

Juntos, os casos têm o potencial de abalar os alicerces do setor de IA generativa, dizem alguns especialistas jurídicos – mas também podem fracassar. Isso porque as empresas de tecnologia provavelmente se apoiarão fortemente em um conceito jurídico que lhes serviu bem no passado: a doutrina conhecida como “uso justo” (ou fair use).

Em termos gerais, a lei de direitos autorais nos EUA faz distinção entre copiar literalmente o trabalho de outra pessoa – o que geralmente é ilegal – e “remixar” ou fazer um uso novo e criativo. No caso de sistemas de IA, o que gera confusão é que eles parecem estar fazendo as duas coisas, segundo James Grimmelmann, professor de direito digital e da informação da Universidade de Cornell.

A IA generativa representa “essa grande transformação tecnológica que pode criar uma versão remixada de qualquer coisa”, diz Grimmelmann. “O desafio é que esses modelos também podem memorizar descaradamente obras nas quais foram treinados e, muitas vezes, produzir cópias quase exatas”, o que, segundo ele, é “tradicionalmente o cerne do que a lei de direitos autorais proíbe”.

Desde os primeiros videocassetes, que podiam ser usados para gravar programas de TV e filmes, até o Google Books, que digitalizou milhões de livros, as empresas americanas convenceram os tribunais de que suas ferramentas tecnológicas equivaliam ao uso justo de obras. A OpenAI e a Microsoft já estão montando uma defesa semelhante.

“Acreditamos que o treinamento de modelos de IA se qualifica como um uso justo, estando diretamente alinhado com os precedentes estabelecidos que reconhecem que o uso de materiais protegidos por direitos autorais por inovadores de tecnologia de forma transformadora é totalmente consistente com a lei de direitos autorais”, escreveu a OpenAI em um pedido ao Escritório de Direitos Autorais dos EUA em novembro.

Como funcionam os treinamentos de IA

Em geral, os sistemas de IA são “treinados” em conjuntos de dados gigantescos que incluem grandes quantidades de material publicado, grande parte dele protegido por direitos autorais. Por meio desse treinamento, eles passam a reconhecer padrões na disposição de palavras e pixels, que podem ser usados para montar texto e imagens.

Alguns entusiastas de IA veem esse processo como uma forma de aprendizado, não muito diferente de um estudante de arte que devora livros sobre Monet ou de um viciado em notícias que lê o Times de capa a capa para desenvolver seu próprio conhecimento. Mas os críticos veem um processo mais cotidiano em ação sob o capô desses modelos: é uma forma de cópia, e uma cópia não autorizada.

Há duas vertentes principais no caso do New York Times contra a OpenAI e a Microsoft. Em primeiro lugar, como em outros processos recentes de direitos autorais e IA, o Times argumenta que seus direitos foram violados quando seus artigos foram “raspados” – ou digitalizados e copiados – para inclusão nos conjuntos de dados gigantes nos quais o GPT-4 e outros modelos de IA foram treinados. Isso às vezes é chamado de “input”.

Em segundo lugar, a ação do Times cita exemplos em que o modelo de linguagem GPT-4 da OpenAI parece fornecer resumos detalhados de artigos protegidos por paywall ou seções inteiras de artigos específicos do Times. Em outras palavras, o Times alega que as ferramentas também violaram seus direitos autorais com sua “produção”.

Como os tribunais enxergam a questão

Até o momento, os juízes têm sido cautelosos com o argumento de que o treinamento de um modelo de IA em obras protegidas por direitos autorais equivale a uma violação em si, diz Jason Bloom, sócio do escritório de advocacia Haynes and Boone e presidente do grupo de litígio de propriedade intelectual.

“Tecnicamente, fazer isso pode ser uma violação de direitos autorais, mas é mais provável que seja considerado fair use, porque você não está exibindo publicamente o trabalho”, diz Bloom.

O fair use também pode ser aplicado quando a cópia é feita para uma finalidade diferente da simples reprodução da obra original, como para criticá-la ou usá-la para fins educacionais ou de pesquisa. Foi assim que o Google defendeu o Google Books.

O projeto gerou uma ação judicial em 2005 por parte da Authors Guild, que o considerou uma “violação descarada da lei de direitos autorais”. Mas o Google argumentou que, como exibia apenas “trechos” dos livros em resposta às pesquisas, não estava prejudicando o mercado de livros, mas fornecendo um serviço diferente. Em 2015, um tribunal federal de apelação concordou com o Google.

Esse precedente deve favorecer a OpenAI, a Microsoft e outras empresas de tecnologia, afirma Eric Goldman, professor da Faculdade de Direito da Universidade de Santa Clara e codiretor do High Tech Law Institute. “Vou adotar a posição, com base em precedentes, de que se os resultados não são infratores”, diz.

A OpenAI e a Microsoft também são alvo de outros processos de direitos autorais de IA, assim como as empresas rivais de IA, incluindo Meta, Stability AI e Midjourney, com algumas visando chatbots baseados em texto e outras visando geradores de imagens. Até o momento, os juízes rejeitaram partes de pelo menos dois casos em que os autores não conseguiram demonstrar que os resultados da IA eram substancialmente semelhantes aos seus trabalhos protegidos por direitos autorais.

Em contraste, o processo do Times fornece vários exemplos em que uma versão do GPT-4 reproduziu grandes trechos de texto idênticos aos dos artigos do Times. A posição da OpenAI é de que os exemplos no processo do Times são aberrações – uma espécie de bug no sistema que fez com que ele fornecesse passagens textuais.

Tom Rubin, chefe de propriedade intelectual e conteúdo da OpenAI, diz que o Times parece ter manipulado intencionalmente suas instruções ao sistema de IA para que ele reproduzisse seus dados de treinamento. Ele afirma que os exemplos no processo “não refletem o uso pretendido ou o comportamento normal do usuário e violam nossos termos de uso”.

“Muitos dos exemplos não podem ser reproduzidos”, acrescenta Rubin.

IA generativa compete com veículos de comunicação?

O Times não especificou o valor que está buscando, embora a empresa estime que os danos estejam na casa dos “bilhões”. Ele também está pedindo uma proibição permanente do uso não licenciado de seu trabalho. E mais: pede que todos os modelos de IA existentes treinados no conteúdo do Times sejam destruídos.

Como os casos de IA representam um novo terreno na lei de direitos autorais, não está claro como os juízes e júris decidirão no final, afirmam especialistas.Embora o caso da Pesquisa de Livros do Google possa ser favorável às empresas de tecnologia, a imagem do uso justo foi confundida pela recente decisão da Suprema Corte em um caso envolvendo o uso pelo artista Andy Warhol de uma fotografia do astro do rock Prince, diz Daniel Gervais, professor da Vanderbilt Law. O tribunal concluiu que, se a cópia for feita para competir com a obra original, “isso pesa contra o fair use” como defesa. Portanto, o caso do Times pode depender, em parte, de sua capacidade de demonstrar que produtos como o ChatGPT e o Bing competem com seu negócio.

Ele afirma que um resultado provável pode ser um acordo que conceda às empresas de tecnologia uma licença para o conteúdo em troca de pagamento. O Times passou meses em negociações com a OpenAI e com a Microsoft, que detém uma participação importante na OpenAI, antes de entrar com o processo.

Uma vitória do Times poderia ter consequências importantes para o setor de notícias, que está em crise desde que a internet começou a suplantar os jornais e revistas há quase 20 anos. Desde então, a receita de publicidade dos jornais tem sofrido um declínio constante, o número de jornalistas em atividade caiu drasticamente e centenas de comunidades em todo o país não têm mais jornais locais.

Reid, da Colorado Law, observou que os gigantes da tecnologia podem ser réus menos simpáticos hoje para muitos juízes e júris do que há uma década, quando o caso do Google Books estava sendo decidido.

“Há um motivo pelo qual se ouve falar muito em inovação, código aberto e startups” do setor de tecnologia, disse ele. “Há uma corrida para definir quem é o Davi e quem é o Golias aqui.”

https://www.estadao.com.br/link/empresas/futuros-da-ia-e-do-jornalismo-podem-ser-decididos-na-disputa-entre-openai-e-new-york-times/

Futuros da IA e do jornalismo serão decididos na disputa OpenAI e New York Times

Como funcionam os treinamentos de IA

Como os tribunais enxergam a questão

IA generativa compete com veículos de comunicação?

Tags