A ANTHROPIC ESTÁ VOLTANDO ATRÁS em uma política que teria limitado de forma encoberta concorrentes de usarem seu novo modelo de IA, o Claude Fable 5, para desenvolver outros modelos de IA. A empresa mudou de curso depois que a medida recebeu forte reação negativa da comunidade de pesquisa em IA.
“Vamos alterar as salvaguardas do Fable 5 para o desenvolvimento de LLMs de fronteira para que elas sejam visíveis”, disse a Anthropic em um comunicado à WIRED. “Fizemos a troca errada e pedimos desculpas por não termos encontrado o equilíbrio certo.”
A Anthropic lançou o Claude Fable 5, uma versão de seu modelo mais recente com guardrails adicionais de segurança para evitar mau uso, no início desta semana. Algumas das salvaguardas adotadas pela Anthropic eram previsíveis: a empresa afirmou que redirecionaria usuários que fizessem perguntas sobre cibersegurança, biologia ou química para um modelo de IA menos capaz, reduzindo as chances de alguém usar a IA avançada para realizar um ciberataque ou construir uma arma biológica.
Mas, para pesquisadores tentando usar o Claude Fable 5 no desenvolvimento de IA de fronteira, a Anthropic delineou uma abordagem diferente. A empresa degradaria deliberadamente o desempenho do modelo de maneiras que seriam invisíveis para o usuário. A medida efetivamente sabotaria pesquisadores que tentassem usar o Claude para treinar modelos de IA concorrentes — algo que a Anthropic proíbe explicitamente em seus termos de serviço.
Agora, a Anthropic diz que está mudando de rumo e que as salvaguardas do Claude Fable 5 para desenvolvimento de IA serão visíveis aos usuários. Se a empresa suspeitar que alguém está tentando usar o Claude para construir uma IA altamente capaz, ela avisará que está recusando o pedido ou redirecionando a pessoa para um modelo menos capaz.
A Anthropic reverteu a política após receber forte reação da comunidade de pesquisa em IA. A empresa já havia tomado medidas para impedir que concorrentes usem o Claude na criação de modelos de IA de código fechado e aberto, mas críticos dizem que degradar silenciosamente o desempenho do modelo para certos usuários foi longe demais. O agente de programação do Claude se tornou uma ferramenta favorita entre desenvolvedores, inclusive os que trabalham em projetos de pesquisa de IA de código aberto, e pesquisadores disseram à WIRED que a política mais recente poderia levar a um futuro preocupante, no qual apenas um punhado de laboratórios líderes poderia realizar pesquisa avançada em IA.
Dean Ball, pesquisador sênior da Foundation for American Innovation e ex-assessor da Casa Branca em IA, escreveu em um post no X que “degradar o desempenho em pesquisa de ML sem avisar o usuário é chocantemente hostil e pega muito mal”. Ele continuou em outro post que a política de “sabotagem secreta” mina a postura geral da Anthropic, porque limita pesquisadores de IA de colaborarem em segurança de IA.
“Parecia que a Anthropic estava dizendo ao público: ‘Não confiamos em mais ninguém para fazer pesquisa em IA. Nós somos os únicos que têm que fazer pesquisa em IA’”, diz Will Brown, líder de pesquisa na startup de IA de código aberto Prime Intellect. “Parece um pouco como se estivessem puxando a escada depois de subir.”
Brown disse que a política também deixaria desenvolvedores no escuro sobre se estavam violando as regras da Anthropic, já que a empresa não os alertaria quando suas salvaguardas fossem acionadas. Ele acrescentou que as restrições poderiam ter consequências amplas. Por exemplo, apontou para o crescente ecossistema de empresas terceirizadas de avaliação que testam modelos de fronteira quanto a segurança, desempenho e confiabilidade — trabalho que poderia ter sido prejudicado se a Anthropic degradasse secretamente seu modelo.
A Anthropic afirmou que implementou as medidas porque o Claude se tornou cada vez mais eficaz em acelerar pesquisas em IA. Em um post no blog, a empresa disse estar preocupada com a possibilidade de a IA melhorar suas capacidades mais rápido do que a sociedade consegue se adaptar. A Anthropic argumentou que seria “bom para o mundo ter a opção de desacelerar ou pausar temporariamente o desenvolvimento de IA de fronteira para permitir que estruturas sociais e pesquisas de alinhamento acompanhem o ritmo”.
“Essas salvaguardas impedem que adversários estrangeiros usem nossos modelos mais capazes de maneiras que representam riscos severos de segurança. Os EUA e seus aliados mantêm uma vantagem em chips de fronteira e no software altamente otimizado que os faz operar em seu potencial máximo”, disse a empresa em um comunicado à WIRED. “Essas salvaguardas garantem que o Claude não seja usado para corroer essa vantagem — por exemplo, otimizando chips desenvolvidos por esses adversários… Ao decidir torná-las visíveis ou invisíveis, enfrentamos uma escolha. Uma salvaguarda oculta é mais difícil de testar e contornar. Isso significa que as salvaguardas podem ser direcionadas de forma muito mais restrita.”
A Anthropic diz que, como essa salvaguarda em torno do desenvolvimento de IA agora é visível, ela precisa “lançar uma rede mais ampla”, o que significa que mais pedidos benignos podem acionar suas salvaguardas. A empresa afirma que está trabalhando para tornar seus classificadores mais precisos o mais rápido possível.
https://www.wired.com/story/anthropic-responds-to-backlash-on-claudes-secret-sabotage-on-ai-research
