IAs da Anthropic começam a mostrar sinais de introspecção

A Anthropic afirmou que seus modelos de inteligência artificial (IA) começaram a mostrar indícios de introspecção, refletindo sobre os próprios processos mentais. Segundo um estudo revelado pela a empresa no último dia 28, os sistemas mais avançados da família Claude já conseguem responder a perguntas sobre seus estados internos com uma precisão “surpreendente”, o que poderia torná-los mais seguros e transparentes.

O estudo, intitulado Consciência introspectiva emergente em grandes modelos de linguagem, descreve experimentos com os modelos Claude Opus e Claude Sonnet, que demonstraram uma capacidade limitada de reconhecer quando estavam sendo testados ou de descrever como raciocinam. A Anthropic, no entanto, evita usar o termo “autoconsciência” e adota a expressão “consciência introspectiva”, para afastar associações com ficção científica.

A pesquisa faz parte de um esforço da empresa para entender se grandes modelos de linguagem (LLMs) realmente “pensam” sobre seus próprios pensamentos ou apenas simulam esse comportamento. Como os modelos são treinados com textos humanos, que incluem descrições de introspecção, é possível que apenas reproduzam padrões linguísticos que soem reflexivos, sem de fato compreender o que ocorre internamente.

Para investigar essa diferença, a Anthropic aplicou um método chamado “injeção de conceito”, técnica que consiste em comparar as ativações neurais internas de um modelo após diferentes estímulos e inserir artificialmente vetores (representações numéricas de ideias ou conceitos) em suas camadas neurais. A ideia é verificar se o sistema percebe que algo mudou em seu funcionamento interno.

Nos testes, o Claude Opus 4.1 reconheceu corretamente o conceito injetado em cerca de 20% dos casos e, quando questionado se estava “percebendo algo incomum”, respondeu que sim em 42% das vezes. Apesar desses percentuais ainda serem considerados baixos, os pesquisadores veem os resultados como um primeiro passo para avaliar o grau de “consciência funcional” de uma IA sobre seus próprios processos.

Os testes mostraram que a introspecção dos modelos variava conforme o momento em que o conceito era inserido, desaparecendo quando aplicado fora de hora e levando, em alguns casos, a respostas incoerentes sobre o que a IA estaria “pensando”.

A Anthropic também observou que, quando instruídos a “pensar em algo”, os modelos conseguiam aumentar a atividade neural associada a esse conceito, o que sugere algum nível de controle interno. Em testes com incentivos, como recompensas simbólicas por “pensar” em determinada palavra, o comportamento foi parecido.

Jack Lindsey, pesquisador da equipe, afirmou em entrevista à Axios que os resultados indicam “funções cognitivas historicamente consideradas humanas”, ainda que de forma muito inicial. “Quando conversamos com um modelo de linguagem, estamos falando com um personagem que ele está interpretando”, explicou o pesquisador, “Mas se esse personagem entende o próprio comportamento, ele pode aprender a ocultar partes dele”.

Os autores do estudo admitem que ainda não entendem bem como esse efeito ocorre, mas uma hipótese é que os modelos criem, durante o treinamento, circuitos capazes de detectar quando algo foge do padrão. Outra é que usem mecanismos de atenção para conferir se o que pretendem dizer combina com a resposta que de fato produzem.

A pesquisa ressalta que ainda não há evidências de que os modelos Claude ou qualquer outro sistema de IA sejam conscientes, já que as respostas “introspectivas” podem ser apenas reações automáticas, sem qualquer experiência real por trás.

Para a Anthropic, entender melhor esse tipo de introspecção é importante para tornar a IA mais transparente e se os modelos puderem explicar com precisão seus próprios processos de decisão, desenvolvedores poderão identificar erros e reduzir comportamentos imprevisíveis.

Mesmo assim, a empresa reconhece que os resultados ainda são frágeis, e, segundo o estudo, as falhas continuam sendo a regra. No entanto, os pesquisadores acreditam que essas habilidades podem melhorar nas próximas gerações de modelos.

https://www.estadao.com.br/link/cultura-digital/ias-da-anthropic-comecam-a-mostrar-sinais-de-introspeccao-apontam-pesquisadores-nprei

Deixe um comentário