Gustavo Corrêa Mirapalheta
Estamos em ano eleitoral. Em breve seremos bombardeados com pesquisas de intenção de voto, as quais indicarão o percentual esperado de votos de cada candidato. Com o passar dos anos (desde a redemocratização do país) e a melhora nos métodos de amostragem utilizados pelos institutos de pesquisa, tornou-se lugar comum aceitar a validade de tais pesquisas, as quais em geral preveem os resultados das eleições com razoável precisão e acurácia.
O que muitas vezes nos escapa é o real sentido em termos de vitória deste ou daquele candidato do resultado de uma pesquisa eleitoral. Em outras palavras, supondo que um candidato “A” tenha um percentual esperado “x” de votos e outro candidato “B” tenha outro percentual esperado “y” de votos, qual a probabilidade de “A” superar “B” no dia da eleição?
Para isto teremos de descer (ou subir dependendo de nossa perspectiva) alguns degraus na estrutura da estatística para poder responder esta questão de forma mais precisa. Vamos reformular este problema da seguinte forma: suponha que tenha sido feita uma pesquisa eleitoral às vésperas de uma eleição e os dois candidatos “A” e “B” com maior percentual de intenção de votos tenham respectivamente 30% e 26% de intenções de votos. Além disso nos foi informado que a pesquisa tem uma margem de erro de +/-3% e, este é ponto crucial, uma confiança de 95%. A confiança da pesquisa quase nunca é informada, mas a praxe nos testes estatísticos é, se não for informada, a confiança é de 95%. Caso a confiança seja informada deve-se adaptar a rotina de cálculo aqui descrita ao valor informado. Mas neste caso vamos supor que a confiança da pesquisa é de 95%. O que significa esta confiança?
Mais um degrau na ladeira da estatística nos espera. As pesquisas eleitorais representam uma soma de “n” elementos em uma amostra. Este “n” é grande (bem maior que 120, na verdade, algo próximo de alguns milhares). Com alguns milhares de elementos em uma amostra, o Teorema do Limite Central (ou Teorema Fundamental da Estatística) afirma que a distribuição da média será uma Normal (a curva em forma de sino), não importando qual seja a distribuição dos valores individuais. Isto é MUITO importante. Uma curva normal é algo bem “comportado”, com a distribuição dos seus valores bem conhecida e isto nos permite pisar em um terreno bem estudado.
Em uma curva normal espera-se que 95% dos seus valores observados estejam em um intervalo que vai de dois desvios padrões abaixo da média até dois desvios padrões acima da média. Em outras palavras, a margem de erro esperada é de dois desvios padrões. Entenderam por que a confiança é essencial para analisar o resultado de uma pesquisa? Uma vez que saibamos a confiança temos como traduzir a margem de erro da pesquisa no desvio padrão dos resultados! Neste caso se a pesquisa tem uma margem de erro de +/-3%, significa que o desvio padrão dos resultados da pesquisa é de 3% / 2 = 1,5%!
Vamos voltar para o resultado da pesquisa. O candidato “A” tem 30% das intenções de voto e o candidato “B” tem 26%. Estas intenções de voto serão variáveis normais, com médias 30% e 26% respectivamente e desvio padrão de 1,5% em cada uma delas. No entanto, queremos saber qual a probabilidade da intenção de votos de “A” ficar realmente maior que a de “B” no dia da eleição. Em outras palavras queremos determinar P(A>B). Um pouco de matemática dentro do parênteses nos permite transformar a operação acima em P(A-B>0). Observe que agora temos uma nova variável aleatória, R (de Resultado) a qual pode ser definida como: R=A-B . Sendo R a diferença entre duas variáveis aleatórias, a média de R será a média de “A” menos a média de “B”. Em outras palavras: μ_R=μ_A-μ_B. Já o desvio padrão de R é um pouco mais complicado de calcular. Devemos lembrar que quando somamos (ou subtraímos como neste caso) duas variáveis aleatórias quem soma são as variâncias, sem levar em conta se estamos somando ou subtraindo os valores das variáveis. Desta forma a variância de R será a variância de “A” mais a variância de B. Em “matematiquês”: 〖σ^2〗_R=〖σ^2〗_A+〖σ^2〗_B. Isto implica que o desvio padrão de R será σ_R=√(〖σ^2〗_A+〖σ^2〗_B ).
Temos agora uma variável R, normal, com média μ_R=μ_A-μ_B=30%-26%=4% e desvio padrão σ_R=√(〖σ^2〗_A+〖σ^2〗_B )=2,12%. Como originalmente queríamos calcular P(A-B>0), na verdade, queremos calcular P(R>0), para uma variável normal, com média μ_R=4% e desvio padrão σ_R=2,12%. E isto podemos fazer no Excel! Para tanto devemos mudar nosso cálculo para o modo como o Excel calcula as probabilidades normais fazendo P(R>0)=1-P(R<0). E para efetuar este cálculo no Excel aplicamos em uma célula qualquer a seguinte operação matemática =1-DIST.NORM.N(0;4%;2,12%;1) o que nos dará 97% de probabilidade de vitória do candidato “A”.
Observe que, mesmo com os resultados estando dentro da margem de erro de +/-3%, pois 30%-3% = 27% e 26%+3%=29%, o que indica possibilidade de inversão de resultados, o pequeno desvio padrão nos mostra que apesar de possível tal inversão de resultado às vésperas de uma eleição é pouco provável. É claro que a análise aqui apresentada é “estática”, isto é, ela supõe que as condições sociais sob as quais a pesquisa foi feita, permanecerá a mesma até o dia da eleição. Toda pessoa que tenha vivido as “fortes emoções” que tem caracterizado o cenário eleitoral brasileiro nos últimos anos sabe que está pressuposição é no mínimo corajosa.
No entanto, este tipo de análise poderia ser feito por vários especialistas eleitorais, para inclusive melhorar a qualidade de seus comentários e aparentemente ela é muito pouco (se é que é) utilizada pelos ditos “especialistas em eleição”.