Esse texto tem tradução livre do site: https://medium.com/@riteshgupta.ai/mastering-the-fundamentals-of-statistics-for-data-science-basic-to-advance-level-part-1-c33fc06680ed
A estatística é uma área da matemática que lida com a coleta, análise, interpretação, apresentação e organização de dados. Na ciência de dados, as estatísticas desempenham um papel crucial na compreensão e percepção de grandes dataset. Elas ajudam os cientistas de dados a entender padrões e tendências nos dados, além de projetar previsões com base nas informações. Através dessa metodologia, esses profissionais conseguem fazer inferências sobre uma população com base em uma amostra de dados e testarem hipóteses sobre relacionamentos entre variáveis.
Na ciência de dados, a estatística é usada em tarefas diversas, como exploração e limpeza de dados, seleção de recursos, seleção e avaliação de modelos e teste de hipóteses.
Por exemplo, ao explorar um dataset, um cientista de dados pode usar estatísticas descritivas, como média, mediana e desvio padrão, para ter uma noção da distribuição geral dos dados. No processo de limpeza e preparação dos dados, podem ser usadas técnicas estatísticas como detecção de outliers, imput de valores ausentes e normalização.
No processo de seleção de recursos, um cientista de dados pode usar métodos estatísticos, como análise de correlação e regressão, para identificar quais variáveis são mais importantes para o problema em questão.
Quando se trata de seleção de modelo, os cientistas de dados usam técnicas estatísticas, como validação cruzada e teste A/B, para garantir que seu modelo seja generalizável e tenha um bom desempenho em dados não vistos.
Em resumo, a estatística é uma ferramenta essencial para os cientistas de dados, pois fornece os meios para extrair insights e fazer previsões a partir dos dados.
Tipos de estatísticas:
- Estatística Teórica
- Estatísticas aplicadas
Estatística inferencial:
A estatística inferencial é um ramo que trata de fazer inferências sobre uma população com base em uma amostra de dados. Envolve o uso de probabilidade e modelos estatísticos para fazer previsões ou estimativas sobre uma população a partir de dados de amostra. Isso é feito usando métodos estatísticos para tirar conclusões sobre a população a partir dos dados da amostra. Algumas técnicas estatísticas inferenciais comuns incluem teste de hipótese, estimativa e análise de correlação. Essas técnicas são usadas para fazer previsões, estimar parâmetros populacionais e tirar conclusões sobre a população com base nos dados da amostra.
Aqui está um exemplo de estatística inferencial em ação:
Imagine que um pesquisador queira saber a renda média de todos os adultos de uma determinada cidade. Seria impraticável pesquisar todos os adultos da cidade, então, em vez disso, eles pegam uma amostra de 1.000 adultos e registram sua renda. Usando estatísticas inferenciais, o pesquisador pode usar esses dados de amostra para fazer inferências sobre toda a população adulta da cidade.
O pesquisador calcula a renda média da amostra, que é $50.000 e também calcula o desvio padrão da amostra, que é $10.000. Com essas informações, o pode-se utilizar métodos estatísticos inferenciais para estimar a renda média de todos os adultos da cidade e também calcular a margem de erro.
Por exemplo, usando um teste Z e assumindo uma distribuição normal, o pesquisador pode estimar que a renda média de todos os adultos na cidade provavelmente está entre US$49.500 e US$50.500, com um nível de confiança de 95%.
Estatísticas descritivas:
A estatística descritiva é um ramo da estatística que trata da descrição e resumo das características de uma amostra de dados. É usado para descrever e resumir os dados da amostra e não envolve fazer inferências sobre uma população.
Tipos de Estatística Descritiva:
- Medida de Tendência Central
- Medida de Variabilidade
Um exemplo de estatística descritiva em ação é:
Um pesquisador deseja descrever a altura dos alunos de uma determinada escola. Eles medem a altura de uma amostra de 100 alunos. Usando estatísticas descritivas, o pesquisador pode resumir os dados de altura calculando medidas como média, mediana e moda da amostra. Eles também podem criar uma tabela de distribuição de frequência e um histograma para mostrar a distribuição dos dados de altura.
O pesquisador descobre que a altura média é de 5,6 pés, a altura mediana é de 5,5 pés e a altura modal é de 5,6 pés. Eles também descobrem que a maioria dos alunos tem uma altura entre 5,4 e 5,8 pés.
Este é apenas um exemplo de como a estatística descritiva pode ser usada para descrever e resumir dados.
Estatísticas básicas:
- Probabilidade Introdução
- Regra de adição em probabilidade
- Regra de multiplicação em probabilidade
- População e amostra
- Medida de Tendência Central (Média, Mediana, Moda)
- Medida de dispersão (variância, desvio padrão)
- O que é método de amostragem e seus tipos
- Média da população e média da amostra
- O que são variáveis e seus tipos?
- Distribuição de frequência e frequência cumulativa
- Histogramas
Estatísticas intermediárias:
- Percentis e quantis
- Resumo de Cinco Números
- Intervalo Interquartil (IQR)
- Boxplots
- Efeito de outliers e sua remoção
- Função densidade de probabilidade
- Distribuição Normal ou Distribuição Gaussiana e Fórmula Empírica
- pontuação Z
- Padronização x Normalização
- Distribuição Normal Padrão
- Teorema do limite central
- Desigualdade de Chebyshev
- Covariância
- Coeficiente de Correlação de Pearson
Estatísticas Avançadas:
- Gráfico QQ
- Distribuição de Bernoulli e Distribuição Binomial
- Registrar distribuição normal
- Distribuição da Lei de Potência
- Boxcox Transform
- Todas as técnicas de transformação
- Intervalo de confiança nas estatísticas
- Erro tipo 1 e tipo 2
- Testes de uma cauda e 2 caudas
- Testando hipóteses
- p-value
- Etapas para teste de hipótese
- Teste T
- Teste Z
- Teste Annova
- Chi-square test
Neste artigo, abordaremos todas as estatísticas básicas e o restante será abordado na Parte 2 e na Parte 3.
Vamos começar
Probabilidade:
Probabilidade é uma medida da probabilidade de um evento ocorrer. É um número entre 0 e 1, com 0 indicando que um evento é impossível e 1 indicando que um evento certamente acontecerá. Por exemplo, a probabilidade de jogar uma moeda honesta e cair cara é de 0,5 ou 50%. Isso ocorre porque há dois resultados possíveis (cara ou coroa) e eles têm a mesma probabilidade de ocorrer.
Credit : onlinemathlearning
Regra de adição em probabilidade:
A regra de adição de probabilidade afirma que a probabilidade da união de dois eventos mutuamente exclusivos (eventos que não podem ocorrer ao mesmo tempo) é a soma das probabilidades de cada evento individual. A fórmula da regra da adição é:
P(A ou B) = P(A) + P(B)
Por exemplo, se lançarmos uma moeda, a probabilidade de obter cara (H) é 0,5 e a probabilidade de obter coroa (T) também é 0,5. Esses são eventos mutuamente exclusivos, já que a moeda não pode dar cara e coroa ao mesmo tempo. Então, usando a regra da adição, podemos dizer que a probabilidade de obter cara ou coroa é:
P(H ou T) = P(H) + P(T) = 0,5 + 0,5 = 1
o que significa que o evento de obter cara ou coroa certamente acontecerá.
População e amostra:
População e amostra são dois termos-chave usados em estatística e pesquisa. Uma população é todo o grupo de indivíduos ou objetos que um pesquisador está interessado em estudar. Por exemplo, uma população pode ser todos os adultos que vivem em uma determinada cidade ou todos os alunos em um determinado distrito escolar.
Uma amostra, por outro lado, é um grupo menor de indivíduos ou objetos selecionados da população. A amostra é usada para representar a população e fazer inferências sobre a população com base nas características da amostra. Por exemplo, um pesquisador pode selecionar uma amostra de 100 adultos que vivem em uma determinada cidade para representar a população de todos os adultos que vivem nessa cidade.
Existem várias maneiras diferentes de selecionar uma amostra de uma população. Uma das mais comuns é a amostragem aleatória simples, na qual indivíduos ou objetos são escolhidos aleatoriamente da população. Outro método é a amostragem estratificada, na qual a população é dividida em subgrupos (ou estratos) e uma amostra é selecionada de cada subgrupo.
É importante observar que a amostra deve ser representativa da população para que os resultados da pesquisa sejam válidos.
Medida de tendência central (média, mediana, moda):
Medida de tendência central refere-se a um único valor que representa o centro ou valor típico de um dataset. Existem três medidas principais de tendência central: média, mediana e moda.
Credit: cuemath
A média é a média aritmética de um dataset. É calculada somando todos os valores em um dataset e dividindo pelo número de valores. A média é uma medida de tendência central comumente usada, mas pode ser afetada por outliers ou valores extremos.
A mediana é o valor médio de um dataset quando ele é organizado em ordem. É uma medida útil de tendência central quando um dataset possui outliers ou valores extremos, pois não é afetado por esses valores. Para encontrar a mediana, os dados devem ser ordenados, se houver um número par de observações, a mediana é a média dos dois valores do meio.
A moda é o valor que aparece com mais frequência em um dataset. Um dataset pode ter uma moda, mais de uma moda (multimodal) ou nenhuma moda (unimodal). A moda é útil quando os dados são categóricos, por exemplo, ao contar os diferentes tipos de carros em um estacionamento.
É importante notar que diferentes datasets podem ter diferentes medidas de tendência central. Por exemplo, um dataset com uma distribuição normal terá uma média e uma mediana semelhantes, enquanto um dataset com uma distribuição assimétrica pode ter uma média e uma mediana bastante diferentes.
Medida de dispersão (variância, desvio padrão):
Medida de dispersão é um termo estatístico usado para descrever o grau em que um dataset está espalhado. Duas medidas comuns de dispersão são: variância e desvio padrão.
A variância é uma medida de quão longe cada ponto de dados em um conjunto está da média. É calculado tomando a média das diferenças ao quadrado da média. Uma alta variância indica que os dados estão espalhados por um grande intervalo, enquanto uma baixa variância indica que os dados estão agrupados em torno da média.
O desvio padrão é uma medida da quantidade de variação ou dispersão de um conjunto de valores. É calculado como a raiz quadrada da variância. O desvio padrão é usado como uma forma de medir a volatilidade de uma ação ou outros investimentos. Um desvio padrão baixo indica que os pontos de dados tendem a estar próximos da média, enquanto um desvio padrão alto indica que os pontos de dados estão espalhados por uma faixa mais ampla.
Método de amostragem e seus tipos:
A amostragem é o processo de selecionar um grupo representativo de uma população maior. Existem vários tipos diferentes de métodos de amostragem, incluindo:
- Amostragem aleatória simples: Este é um método onde cada membro da população tem uma chance igual de ser selecionado.
- Amostragem sistemática: Este método envolve a seleção de cada enésimo membro da população, onde N é determinado pelo tamanho da amostra desejada.
- Amostragem aleatória estratificada: Este método envolve dividir a população em grupos (ou estratos) com base em certas características e, em seguida, selecionar aleatoriamente os membros de cada estrato.
- Amostragem por Cluster: Este método envolve dividir a população em grupos e então selecionar aleatoriamente um número de conglomerados a serem incluídos na amostra.
- Amostragem por conveniência: Este método envolve a seleção de participantes com base em sua disponibilidade ou vontade de participar.
- Amostragem por cota: Este método envolve a seleção de um certo número de participantes de subgrupos específicos dentro da população.
É importante escolher o método de amostragem apropriado com base na questão de pesquisa e nas características da população que está sendo estudada.
Média da população e média da amostra:
A média populacional refere-se ao valor médio de uma variável em uma população, enquanto a média amostral refere-se ao valor médio de uma variável em uma amostra extraída dessa população. A média da população é denotada pelo símbolo “μ” (mu) e é calculada somando todos os valores da variável e dividindo pelo número total de observações na população. A média amostral é indicada pelo símbolo “x̄” (x-barra) e é calculada somando todos os valores da variável na amostra e dividindo pelo número total de observações na amostra. A média da amostra é uma estimativa da média da população.
O que são variáveis e seus tipos?
Uma variável é uma característica ou atributo que pode assumir diferentes valores. Nas estatísticas, as variáveis são usadas para representar os dados que estão sendo coletados e analisados. Existem vários tipos de variáveis, incluindo:
- Variáveis categóricas: São variáveis que podem ser divididas em categorias ou grupos. Exemplos incluem gênero, raça e afiliação partidária política.
- Variáveis numéricas: São variáveis que podem assumir valores numéricos e podem ser medidas em uma escala. Exemplos incluem idade, renda e peso.
- Variáveis ordinais: São variáveis que podem ser colocadas em uma ordem ou classificação específica, mas a diferença entre os valores não é conhecida. Exemplos incluem nível educacional e satisfação.
- Variáveis contínuas: São variáveis que podem assumir qualquer valor em um determinado intervalo, como peso ou altura.
- Variáveis discretas: São variáveis que só podem assumir determinados valores, como o número de filhos de uma família.
Distribuição de frequência e frequência cumulativa:
Distribuição de frequência é uma tabela ou gráfico que mostra o número de ocorrências (frequência) de cada valor ou faixa de valores de uma variável. É uma maneira de organizar e resumir grandes datasets.
Frequência cumulativa é o total corrente de frequências. É calculado adicionando cada frequência ao total das frequências anteriores. Uma distribuição de frequência cumulativa é uma tabela ou gráfico que mostra a frequência cumulativa de cada valor ou intervalo de valores.
Histogramas:
Um histograma é uma representação gráfica de uma distribuição de frequência. É uma maneira de exibir visualmente a distribuição de uma variável numérica contínua. O eixo x representa o intervalo de valores para a variável e o eixo y representa a frequência desses valores. A faixa de valores é dividida em “caixas” (ou “intervalos”), e cada caixa representa a frequência de observações que se enquadram nessa faixa de valores. A altura de cada barra representa a frequência de observações naquele compartimento.
Esse texto tem tradução livre do site: https://medium.com/@riteshgupta.ai/mastering-the-fundamentals-of-statistics-for-data-science-basic-to-advance-level-part-1-c33fc06680ed