A Estatística pode ser divida em dois ramos principais: descritiva e inferencial. A descritiva cuida da exploração dos dados. Ela está presente, por exemplo, no dia a dia dos profissionais de Business Intelligence. Ao produzir tabelas, calcular médias ou construir gráficos, estes especialistas estão trabalhando com estatística descritiva.
Já a estatística inferencial busca tirar conclusões de um todo a partir de uma fração de informações. “Quando fazemos pesquisas eleitorais e falamos sobre a intenção de voto de um candidato, não estamos apenas descrevendo os dados, estamos inferindo, a partir de uma amostra, a intenção de todos os eleitores”, exemplifica Cristina Graciele, professora e consultora do IBPAD.
Ainda, pode-se dividir a estatística inferencial em mais dois ramos: clássica e Bayesiana. Na inferência clássica, também conhecida como frequentista, toda previsão é feita partir dos dados disponíveis. Ou seja, as conclusões ocorrem a partir dos dados coletados da amostra ou da população.
Por outro lado, a inferência Bayesiana adiciona no modelo preditivo, além dos dados coletados, as informações subjetivas. Neste caso, o pesquisador admite a existência de algum conhecimento que os dados coletados não dão conta de prever e que podem fazer diferença para a previsão.
“Você sabe que em uma eleição democrática não existe chance real de um candidato ter 100% dos votos. Então, [na inferência Bayesiana] você pode incorporar essa informação ao modelo”, explica Manoel Galdino, diretor-executivo da Transparência Brasil. “Na estatística frequentista a gente não incorpora esse tipo de informação, a gente assume que tudo o que precisamos está disponível na amostra”, completa Galdino.
A inferência Bayesiana surge a partir do teorema de Bayes, que demonstra matematicamente como estas informações não contidas na amostra (chamadas de informações a priori) devem ser incorporadas no modelo preditivo. De acordo com o teorema, temos:
De maneira simplificada, a leitura da fórmula é: probabilidade de A acontecer visto que B já ocorreu. Para isso, calcula-se a probabilidade a priori de A (conhecimento acumulado por eventos anteriores) multiplicada pela verossimilhança (dados coletados) dividida pela probabilidade B (evidência). O vídeo abaixo detalha e exemplifica mais o uso da fórmula.
Importante pontuar que hoje a principal discussão em torno da inferência Bayesiana não é sobre a parte matemática. A controvérsia está em como o conhecimento a priori pode enviesar análises de maneira imensurável. “Se eu admito que nenhum candidato pode ter 60% dos votos e alguém consegue atingir essa quantidade de votos, isso vai enviesar minha estimativa. A incorporação da informação precisa ser feita de forma crítica para que a análise Bayesiana seja bem feita”, afirma Galdino.
Por fim, sobre como e quando usar a estatística Bayesiana, a professora Cristina relembra a famosa frase atribuída ao estatístico George Box: “Todos os modelos estão errados, mas alguns são úteis”.
As informações deste texto foram retiradas da aula ao vivo O que é estatística Bayesiana e como ela pode ajudar nas Ciências Sociais exibida no canal do YouTube do IBPAD no dia 19 de maio de 2020. Confira abaixo o trecho sobre a explicação da estatística Bayesiana ou acesse o canal do IBPAD para conferir a aula completa: