The New York Times; Um adolescente da Flórida que faz uma aula de biologia em uma faculdade comunitária recebeu uma nota perturbadora este ano. Uma startup chamada Honorlock a havia sinalizado por agir de forma suspeita durante um exame em fevereiro. Ela era, disse em um e-mail ao The New York Times, uma mulher negra que havia sido “injustamente acusada de desonestidade acadêmica por um algoritmo”.
O que aconteceu, no entanto, foi mais complicado do que um simples erro algorítmico. Envolveu vários humanos, burocracia acadêmica e uma ferramenta automatizada de detecção facial da Amazon chamada Rekognition. Apesar da extensa coleta de dados, incluindo uma gravação da garota de 17 anos e sua tela enquanto ela fazia o teste, a acusação de trapaça foi, em última análise, um julgamento humano: olhar para longe da tela significava que ela estava trapaceando?
A pandemia foi um momento de crescimento para as empresas que monitoram remotamente os participantes do teste, pois se tornou um perigo para a saúde pública reunir um grande grupo em uma sala. De repente, milhões de pessoas foram forçadas a fazer exames, testes e questionários sozinhos em casa em seus laptops. Para evitar a tentação de trapacear e pegar aqueles que o fizeram, as empresas de monitoramento remoto ofereceram extensões de navegador da Web que detectam pressionamento de tecla e movimentos do cursor, coletam áudio do microfone e gravam a tela e o feed da câmera de um computador, trazendo métodos de vigilância usados pelas forças policiais para um ambiente acadêmico.
A Honorlock, com sede em Boca Raton, Flórida, foi fundada por dois graduados em administração de empresas que ficaram frustrados com colegas de classe que acreditavam ser testes de jogos. A startup administrou nove milhões de exames em 2021, cobrando cerca de US$ 5 por teste ou US$ 10 por aluno para cobrir todos os testes do curso. A Honorlock levantou US$ 40 milhões de investidores, a grande maioria desde o início da pandemia.
Manter os participantes do teste honestos tornou-se uma indústria multimilionária, mas a Honorlock e seus concorrentes, incluindo ExamSoft, ProctorU e Proctorio, enfrentaram grandes reveses ao longo do caminho: ativismo generalizado, reportagens da mídia sobre os problemas da tecnologia e até um inquérito do Senado Norte Americano. Alguns participantes de testes vigiados ficaram frustrados com a invasão do software, falhas, falsas alegações de trapaça e problemas em funcionar igualmente bem para todos os tipos de pessoas.
A adolescente da Flórida é um exemplo raro de um trapaceiro acusado que recebeu as provas contra ela: um clipe de 50 segundos de sua gravação de uma hora de Honorlock. Ela pediu que seu nome não fosse usado por causa do estigma associado à desonestidade acadêmica.
Sinalizada
A adolescente estava no último ano de um programa especial para obter seu diploma do ensino médio. Quase 40 outros alunos estavam na aula de biologia do adolescente, mas eles nunca se conheceram. A aula, do Broward College, era totalmente remota e assíncrona.
A educação online assíncrona estava crescendo antes mesmo da pandemia. Oferece aos alunos um horário mais flexível, mas tem desvantagens. No ano passado, um estudante de história da arte que tinha uma pergunta sobre uma palestra gravada tentou enviar um e-mail para seu professor e descobriu que o homem havia morrido quase dois anos antes.
A professora de biologia da adolescente da Flórida, Jonelle Orridge, estava viva, mas distante, suas interações com os alunos aconteciam por e-mail, enquanto ela passava leituras e vídeos no YouTube. O exame em fevereiro passado foi o segundo que o adolescente fez na classe. Ela instalou seu laptop em sua sala de estar em North Lauderdale, certificando-se de seguir uma longa lista de regras estabelecidas no programa de aula e em um menu suspenso Honorlock: Não coma ou beba, não use um telefone, não tenha outras pessoas na sala, não olhar fora da tela para ler notas e assim por diante.
A aluna teve que posar em frente à câmera do laptop para uma foto, mostrar sua carteira de estudante e, em seguida, pegar seu laptop e usar sua câmera para fornecer uma varredura de 360 graus da sala para provar que ela não tinha nenhum material contrabandeado. Ela não se importava com nada disso, disse ela, porque esperava que as medidas impedissem os outros de trapacear.
Ela achou que o teste correu bem, mas alguns dias depois, ela recebeu um e-mail da Dr. Orridge.
“Você foi sinalizada por Honorlock”, escreveu a Dr. Orridge. “Após a revisão do seu vídeo, você foi observada frequentemente olhando para baixo e para longe da tela antes de responder às perguntas.”
Ela estava recebendo um zero no exame, e o assunto estava sendo encaminhado ao reitor de assuntos estudantis. “Se você for considerada responsável por desonestidade acadêmica, a nota zero permanecerá”, escreveu Orridge.
“Isso deve ser um erro”, respondeu o estudante em um e-mail. “Eu não estava sendo academicamente desonesto. Olhar para baixo não indica desonestidade acadêmica.”
‘A palavra de Deus’
O New York Times revisou o vídeo. As gravações do Honorlock de vários outros alunos são visíveis brevemente na captura de tela, antes que o vídeo do adolescente seja reproduzido.
A aluna e sua tela são visíveis, assim como um registro parcial de carimbos de tempo, incluindo pelo menos uma bandeira vermelha, que deve indicar um comportamento altamente suspeito, apenas um minuto depois do início de seu teste. Quando a aluna começa o exame, às 8h29, ela percorre quatro questões, parecendo olhar para baixo depois de ler cada uma, uma das vezes por até 10 segundos. Ela se mexe um pouco. Ela não responde a nenhuma das perguntas durante o clipe de 50 segundos.
É impossível dizer com certeza o que está acontecendo no vídeo. O que a tecnologia de inteligência artificial acertou é que ela olhou para baixo. Mas fazer o quê? Ela pode estar olhando para a mesa, um smartphone ou anotações. O vídeo é ambíguo.
Quando a aluna se encontrou com o reitor e o Dr. Orridge por vídeo, ela disse a eles que olhava para baixo para pensar e que mexia com as mãos para refrescar a memória. Eles não foram influenciados. A aluna foi considerada “responsável” por “descumprimento das orientações”, resultando em zero na prova e advertência em sua ficha.
“Quem fica olhando para uma tela o tempo todo em que está fazendo um teste? Isso é ridículo. Não é assim que os humanos funcionam”, disse Cooper Quintin, tecnólogo da Electronic Frontier Foundation, uma organização de direitos digitais. “Comportamentos normais são punidos por este software.”
Depois de examinar o software de monitoramento on-line que estudantes de medicina do Dartmouth College alegaram os ter sinalizados erroneamente, Quintin sugeriu que as escolas utilizassem especialistas externos para analisar evidências de trapaça. A falha mais séria com esses sistemas pode ser humana: educadores que reagem exageradamente quando um software artificialmente inteligente gera um alerta.
“As escolas parecem tratá-lo como a palavra de Deus”, disse Quintin. “Se o computador diz que você está trapaceando, você deve estar trapaceando.”
Tess Mitchell, porta-voz da Honorlock, disse que não é papel da empresa aconselhar as escolas sobre como lidar com o comportamento sinalizado por seu produto.
“Em nenhum caso identificamos definitivamente ‘trapaceiros’ – a decisão final e o curso de ação cabem ao instrutor e à escola, assim como seria em uma sala de aula”, disse Mitchell. “Pode ser um desafio interpretar as ações de um aluno. É por isso que nós não interpretamos.”
A Dr. Orridge não respondeu aos pedidos de comentários para este artigo. Uma porta-voz do Broward College disse que não poderia discutir o caso por causa das leis de privacidade estudantil. Em um e-mail, ela disse que os professores “exercitam seu melhor julgamento” sobre o que veem nos relatórios da Honorlock. Ela disse que um primeiro aviso por desonestidade apareceria no registro do aluno, mas não teria consequências mais sérias, como impedir o aluno de se formar ou transferir créditos para outra instituição.
Quem decide
A Honorlock ainda não divulgou exatamente como sua inteligência artificial funciona, mas uma porta-voz da empresa revelou que a empresa realiza detecção de rosto usando o Rekognition, uma ferramenta de análise de imagem que a Amazon começou a vender em 2016. O software Rekognition procura por pontos de referência faciais – nariz, olhos, sobrancelhas, boca — e retorna uma pontuação de confiança de que o que está na tela é um rosto. Também pode inferir o estado emocional, gênero e ângulo do rosto.
A Honorlock sinalizará um participante do teste como suspeito se detectar vários rostos na sala ou se o rosto do participante desaparecer, o que pode acontecer quando as pessoas cobrem o rosto com as mãos em frustração, disse Brandon Smith, presidente e diretor de operações da Honorlock.
A Honorlock às vezes usa funcionários humanos para monitorar os participantes do teste; “inspetores ao vivo” aparecerão por bate-papo se houver um grande número de sinalizadores em um exame para descobrir o que está acontecendo. Recentemente, esses inspetores descobriram que o Rekognition estava registrando erroneamente rostos em fotos ou pôsteres como pessoas adicionais na sala.
Quando algo assim acontece, Honorlock diz aos engenheiros da Amazon. “Eles pegam nossos dados reais e os usam para melhorar sua IA”, disse Smith.
O Rekognition deveria ser um passo à frente do que Honorlock estava usando. Uma ferramenta anterior de detecção de rosto do Google era pior na detecção de rostos de pessoas com vários tons de pele, disse Smith.
Mas o Rekognition também foi acusado de preconceito. Em uma série de estudos, Joy Buolamwini, pesquisadora de computadores e diretora executiva da Algorithmic Justice League, descobriu que o software de classificação de gênero, incluindo o Rekognition, funcionava pior em mulheres de pele mais escura.
Determinar o sexo de uma pessoa é diferente de detectar ou reconhecer um rosto, mas o Dr. Buolamwini considerou suas descobertas um canário em uma mina de carvão. “Se você vende um sistema que demonstrou ter viés em rostos humanos, é duvidoso que seus outros produtos baseados em rosto também sejam completamente livres de preconceitos”, escreveu ela em 2019.
O Times analisou imagens do vídeo Honorlock da aluna com o Amazon Rekognition. Foi 99,9 por cento confiante de que um rosto estava presente e que estava triste, e 59 por cento confiante de que o aluno era um homem.
Dr. Buolamwini disse que a cor da pele e o gênero da estudante da Flórida devem ser considerados em suas tentativas de limpar seu nome, independentemente de afetarem o desempenho do algoritmo.
“Seja tecnicamente ligado a raça ou gênero, o estigma e a presunção colocados em estudantes de cor podem ser exacerbados quando uma máquina alimenta o viés de confirmação”, escreveu Buolamwini em um e-mail.
O elemento humano
À medida que a pandemia diminui e os participantes do teste podem se reunir pessoalmente novamente, o setor de supervisão remota poderá, em breve, ter uma demanda menor e enfrentar muito menos escrutínio. No entanto, o intenso ativismo em torno da tecnologia durante a pandemia levou pelo menos uma empresa a fazer uma grande mudança em seu produto.
A ProctorU, concorrente da Honorlock, não oferece mais um produto somente dependente de IA que sinaliza vídeos para os professores revisarem.
“O corpo docente não tinha tempo, treinamento ou capacidade para fazê-lo ou fazê-lo corretamente”, disse Jarrod Morgan, fundador da ProctorU. Uma análise dos dados internos da ProctorU descobriu que vídeos de comportamento sinalizado foram abertos apenas 11% das vezes.
Todo comportamento suspeito agora é analisado por um dos cerca de 1.300 fiscais da empresa, a maioria dos quais está sediada no exterior em mercados de trabalho mais baratos. Morgan disse que esses contratados passaram por um treinamento rigoroso e só “confirmariam uma violação” se houvesse evidências sólidas de que um participante do teste estava recebendo ajuda. A ProctorU administrou quatro milhões de exames no ano passado; ao analisar três milhões desses testes, descobriu que mais de 200.000, ou cerca de 7%, envolviam algum tipo de má conduta acadêmica, segundo a empresa.
A adolescente se formou no Broward College este mês. Ela continua perturbada por ser rotulada de trapaceira e teme que isso possa acontecer novamente.
“Eu tento me tornar um manequim durante os testes agora”, disse ela.
Fonte: Traduzido e adaptado de Accused of Cheating by an Algorithm, and a Professor She Had Never Met – The New York Times Acesso em 30/05/2022