Para chegar a resultados consistentes e confiáveis a partir de uma análise de dados é fundamental que a base satisfaça algumas condições – exigidas pelo formalismo matemático e pelos algoritmos que sintetizam a informação de caráter quantitativo (OLIVEIRA, GRECO e BRANDÃO, 2015), uma vez que estimativas apontam que cerca de 40% dos dados coletados estão comprometidos de alguma forma (FAYYAD, 2003).

Na etapa de limpeza (alcunhada por alguns autores como pré-processamento) são identificadas as anomalias e discrepâncias que podem vir a comprometer a análise. Para tal, é necessário partir de uma inspeção criteriosa da base de dados, identificando as inconsistências e procedendo com as medidas necessárias para sua adequação. Nesta primeira etapa já é possível unir métodos estatísticos aos recursos de detecção de anomalias, para chegar aos valores que devem ser manipulados e, por fim, definir a melhor estratégia para lidar com eles.
O processo de limpeza de uma base de dados, entretanto, não deve se limitar à resolução das inconsistências, podendo também atuar no enriquecimento da base. A agregação ou desagregação de um número de telefone (DDD e número de telefone) ou um endereço (logradouro, número, bairro, CEP, cidade e estado), por exemplo, pode melhorar o processamento e a visualização dos dados.

limpeza de dados

Alguns exemplos de tarefas executadas durante a limpeza (ou pré-processamento) dos dados são:

  • A exclusão ou substituição de valores duplicados. Podemos dizer que redundâncias em uma base de dados podem gerar alguns conflitos que comprometerão a análise, colocando em risco a confiabilidade de todos os resultados obtidos. Se, por exemplo, você estiver lidando com dados transacionais relacionados a uma base de 200 cadastros de clientes, onde 5 estão duplicados – resultando em 10 registros redundantes – cada venda realizada pode ser atribuída a um cadastro de cliente diferente, gerando um problema no momento de analisar as transações;
  • A identificação, exclusão ou tratamento de valores nulos ou inconsistentes. Em muitos casos, registros nulos sequer serão considerados pelas ferramentas que darão suporte ao processo, fazendo com que retornem erro, incapacitando a condução de análises. Os valores inconsistentes – que podem ser, por exemplo, registros alfanuméricos preenchidos em campos exclusivamente numéricos – também podem resultar em erros na etapa do processamento ou da transformação dos dados;
  • A adequação na distribuição dos dados, a partir da identificação e do tratamento de valores atípicos ou aberrantes (muito superiores ou muito inferiores ao que pode ser encontrado na maior parte dos registros da base de dados – também chamados de outliers). A ocorrência de registros aberrantes pode acabar por enviesar os resultados. Um exemplo de problema que pode ser enfrentado caso não sejam removidos ou tratados os outliers é o impacto do registro aberrante na aferição da média dos valores da variável impactada.

É importante lembrar que a limpeza dos dados também faz parte do controle de qualidade e, por isso, podemos concluir que este pré-processamento figura como uma etapa essencial para que os resultados de uma análise sejam confiáveis.

Negligenciar este passo pode comprometer total ou parcialmente as etapas subsequentes da análise de dados, portanto, recomenda-se que o processo seja conduzido com muita atenção e de forma criteriosa, para que as técnicas de limpeza sejam aplicadas considerando o valor estratégico dos dados trabalhados e o cerne da questão que mobiliza o esforço analítico.