Pesquisa de opinião é um tema que sempre me encantou. E sendo assim, não tenho como ficar indiferente às discussões que estão rolando após este primeiro turno das eleições.

Antes de discutir sobre erros, acertos e metodologia eu gostaria fazer um paralelo com outra área: o diagnóstico médico.

No fim de 2020 eu cheguei na emergência de um hospital com falta de ar, febre e mais todos os sintomas que deixariam qualquer um em pânico durante uma pandemia de COVID-19. A médica plantonista pediu alguns exames e, quando olhou uma tomografia falou exatamente esta frase: “se tivesse que ter uma foto, num artigo sobre histoplasmose em uma enciclopédia, seria a imagem desta tomografia!”.(Foi no Google? Pois é, eu também nunca tinha escutado falar sobre essa doença antes). Apesar de ter usado uma ferramenta diagnóstica que apresentava uma forte evidência, a médica emendou: “mas, estamos em 2020, né? Então, preciso de um teste de covid pra te dar um diagnóstico”. O teste deu negativo e segui num tratamento com antifúngicos.

Se eu tivesse ido ao hospital um ano antes, com os mesmo sintomas, eu aposto que a médica teria batido o martelo, com muita segurança, no diagnóstico apenas com a tomografia. E concordam comigo que entre 2019 e 2020 as tomografias não ficaram menos eficientes?

Então, qual meu paralelo aqui?

Uma ferramenta pode ser muito assertiva em um cenário, mas ser INSUFICIENTE (que é muito diferente de inútil) em um cenário mais complexo (tenho certeza de que era um pouquinho menos difícil ser pneumologista antes da COVID-19 chegar).

Após esta breve licença médica, voltando aqui ao tema, é essencial frisar o objetivo de uma sondagem eleitoral: mensurar a intenção de voto no momento da coleta da pesquisa. Com diversas pesquisas sendo publicadas, podemos acompanhar a evolução da intenção de voto dos eleitores, como eventos(de debates a facadas) ao longo da corrida eleitoral mexem com estes resultados, entre várias outras visões que colaboram na estratégia das campanhas e também na decisão de voto dos eleitores (sem divulgação de pesquisa nem existiria o conceito de “voto útil”).

Historicamente, pesquisas são usadas para prever o resultado das urnas, mas esta não é nem nunca foi o objetivo delas (pausa para o choque de quem tá aí falando: “serve pra que então?”). O objetivo está logo ali, no parágrafo acima. Mas, num cenário menos complexo, onde a intenção de voto do eleitor era menos volátil, ela era uma ferramenta diagnóstica muitas vezes suficiente para prever o resultado.

Então, comentaristas políticos (profissionais e amadores) que não param de afirmar que as pesquisas erraram feio nesta eleição, convido vocês a se perguntar: será que vocês não tentaram fazer um diagnóstico usando um exame só? E todos concordam que vivemos num cenário de decisão do eleitor mais complexo, né? (tenho certeza de que era um pouquinho menos difícil ser estrategista de campanha eleitoral e analista político alguns anos atrás).

Aqueles 2 pontos percentuais para mais ou para menos:

Acredito que vale falar um pouquinho sobre alguns conceitos básicos de pesquisa, que valem de sondagens de opinião à experimentos científicos em laboratório. O primeiro é a tão citada, mas tão mal interpretada margem de erro. Uma boa parte da audiência das divulgações de pesquisa já entendeu que quando apresentam uma intenção de voto de 40%, por exemplo, deve ser lida como algo entre 38% e 42%. Por isso temos os “empates técnicos”. Mas tem 2 outros pontos muito importantes, que não são tão claros para esta mesma audiência:

O nível de confiança indica o percentual de vezes que esperamos que o valor real (a intenção de fato dos eleitores naquele momento de medição) esteja dentro do intervalo observado (no exemplo anterior, de 38% a 42%). As pesquisas mais tradicionais costumam usar uma margem de erro com 2p.p e 95% de confiança, ou seja, se repetíssemos a pesquisa com 100 amostras diferentes (do mesmo tamanho e com a mesma metodologia de coleta), teríamos o resultado real em 95 dos intervalos encontrados.

Esta combinação de margem de erro e nível de confiança mensuram o erro amostral, que é o erro inerente à aleatoriedade de uma amostra.

Imagina um experimento com um pote gigantesco com 10 milhões de bolinhas, sendo 5 milhões vermelhas. É coletada uma amostra de 2400 bolinhas e tabulado o % de vermelhas, depois voltamos essas bolinhas pro pote e repetimos esse processo até fazer todas as combinações possíveis de 2400 bolinhas. Uma amostra indicaria que de 48% a 52% de todas as bolinhas são vermelhas, outra de 46% a 50%, outra de 50% a 54%, etc. Em 95% destas amostras o valor real, 50% vermelhas, estaria dentro deste intervalo. Isso é o que chamamos de erro inerente à aleatoriedade. (não por acaso usei 2400 no exemplo: é o tamanho de amostra mais usado pelos institutos de pesquisa!).

Mas, se por exemplo, ao longo do experimento algumas bolinhas desbotassem e começassem a parecer rosas, você tabularia um valor menor de bolinhas vermelhas. Esse é um erro não mensurado na margem de erro explicada ali acima! É o que chamamos de erro não amostral.

E, quando falamos em pesquisas de opinião, temos uma infinidade de erros não amostrais: pessoas mudam de opinião, deixamos de ter nas amostras um certo nicho populacional, pode ter algum viés em como a opinião está sendo coletada (ex: para escolher um item numa lista, as pessoas tendem, até por preguiça mesmo, a apontarem o primeiro) e muitos “etc”. NENHUM desses erros está contemplado na margem de erro divulgada.

Daí que temos problemas conceituais graves nas afirmações de que “o resultado eleitoral está muito além da margem de erro das pesquisas”. Primeiro pelo que falamos antes, de que a pesquisa não é feita para medir o resultado da urna, mas a intenção de voto no momento que foi coletada. E segundo que a margem de erro mede o erro inerente à aleatoriedade na seleção dos eleitores, mas não contempla os erros não amostrais que existem no processo.

Então as pesquisas são confiáveis?

Como já diria William Bonner: “Vamos respirar? Vamos respirar!”. E entender outros 2 conceitos importantes:

Confiabilidade: o quanto o processo de medição está livre de erros amostrais
Validade: o instrumento mede o que se propõe a medir?

Já repararam que as pesquisas de diversos institutos em momentos similares, sobretudo se têm a mesma metodologia (presencial ou telefônica) apontam para resultados semelhantes? Mesmo as tendências de crescimento/queda são coerentes entre elas, mesmo que cada instituto, em cada pesquisa, entreviste pessoas completamente diferentes. Isto é uma evidência da confiabilidade delas, senão elas teriam resultados completamente diferentes! Seria algo como se cada uma das pesquisas fossem uma daquelas muitas amostras possíveis de bolinhas do pote. Se tivéssemos infinitas pesquisas, em 95% delas teríamos o percentual real da intenção de voto em determinado candidato.

Essa imagem abaixo ajuda a explicar a diferença entre confiança e validade:

pesquisas eleitorais

Se isso fosse um jogo de tiro, vocês concordam que seria mais fácil treinar o primeiro atirador a ter o resultado certeiro do último, do que o segundo e o terceiro? Temos que ensiná-lo a conseguir direcionar seus tiros um pouquinho mais abaixo e à esquerda, que vai dar certo.

As pesquisas não são desenhadas para inferir o resultado eleitoral, mas no passado, as bem próximas do pleito, acabavam TAMBÉM prevendo razoavelmente bem. Olhando os desenhos acima, poderíamos dizer que a alguns anos usar a pesquisa como ferramenta diagnóstica do resultado do pleito traria um resultado como o do último desenho, e hoje estamos mais próximas do primeiro.
Então voltamos à discussão de cenários complexos e ferramentas diagnósticas, o que parece é que no cenário atual, algum fator está puxando os resultados de intenções de votos antes das eleições (consistentemente entre os institutos) para uma direção um pouco diferente do resultado final do pleito.

Podemos ter vários fatores que explicariam esta diferença. Será que a abstinência (apesar de não ter crescido significantemente) está mais concentrada em algum perfil do que era antes? Será que a diferença entre voto declarado e efetivado é mais heterogênea entre os perfis de eleitores do que era antes? Será que as ações das campanhas exatamente nas vésperas das eleições impactam de forma absurdamente mais forte do que impactavam antes? (este último, eu particularmente, aposto muito: por exemplo, listas de votos compartilhadas em grupo de whatsapp tem um alcance e influência absurdas, e atingem eleitores de campos ideológicos diferentes em dimensões bem distintas).

Poderíamos inserir uma lista imensa de possibilidades aqui. Mas o ponto aqui é que nenhuma delas invalida as pesquisas, nem quanto à confiabilidade e nem em validade: não temos nenhum indício de que elas não acertam a intenção de voto declarada no momento da coleta – que é para o que elas foram desenhadas.

Tomografias continuarão sendo feitas, pesquisas eleitorais também!

Lembra lá do comecinho do texto, que falei que mesmo as tomografias não tendo ficado menos eficientes, naquele momento epidemiológico a médica precisou de exames adicionais para confirmar o diagnóstico? Então, o que me parece é que as pesquisas não ficaram menos eficientes, mas no contexto atualmente complexo, a intenção de voto dias antes (que é o que a pesquisa mede) não é suficiente sozinha para dar o diagnóstico para o qual estão a utilizando como ferramenta – o de prever o resultado final.

Apesar do bombardeio dos últimos dias sobre as pesquisas e institutos, podem ter certeza de que os partidos políticos seguirão contratando muitas pesquisas e, tal como fazem hoje, usando muitas ferramentas analíticas adicionais.

Entendo que existe um caminho investigativo (e colaborativo) grande pela frente, para institutos, jornalistas , cientistas políticos e estrategistas de campanhas entenderem quais ferramentas devem ser incluídas para ter um diagnóstico mais assertivo (pensando em diagnóstico como previsão de resultado). E, encontrando esse caminho, pode ser que daqui a alguns poucos anos ele não funcione mais e terão que buscar novos. Até porque, não consigo imaginar nada que seja mais complexo e mutável do que opinião humana.

---
Para quem quer se aprofundar mais no uso de dados na política, o Ibpad lançou uma Formação completa com quatro cursos incríveis, confira:

Dados & Mapas – Identifique regiões de eleitores leais utilizando bases geolocalizadas
Pesquisas Eleitorais – Para tomar decisões corretas utilizando pesquisas de opinião
Pesquisa Qualitativa – Para entender como os eleitores pensam utilizando grupos focais
Inteligência de Dados em Mídias Sociais – Para quem quer ser relevante nas redes monitorando e analisando dados online