Limpeza e preparação de dados

Introdução ao Power Query no Excel

Lyndsay Girard

Performance Analytics Consultant

ETL_Schematic_1bof4.jpg

Introdução ao Power Query no Excel

ETL_Schematic_2bof4.jpg

Introdução ao Power Query no Excel

ETL_Schematic_3bof4.png

Introdução ao Power Query no Excel

ETL_Schematic_3cof4.png

Introdução ao Power Query no Excel

ETL_Schematic_4of4.png

Introdução ao Power Query no Excel

Importância de dados limpos

  • Garante precisão e confiabilidade
  • Melhora a eficiência e a eficácia da análise
  • Aumenta consistência e comparabilidade
  • Fortalece a integridade

Imagem de mulher segurando materiais de limpeza sobre a tela de um laptop

Introdução ao Power Query no Excel

Dados ausentes

Tratando dados ausentes

  • Importância/relevância dos dados

Tabela com dados ausentes

Introdução ao Power Query no Excel

Dados ausentes

Tratando dados ausentes

  • Importância/relevância dos dados
  • Volume de dados

Tabela com dados ausentes

Tabela com dados ausentes destacada

Introdução ao Power Query no Excel

Dados ausentes

Tratando dados ausentes

  • Importância/relevância dos dados
  • Volume de dados
  • Fonte dos dados

Tabela com dados ausentes

Tabela com dados ausentes destacada

Introdução ao Power Query no Excel

Dados ausentes

Tratando dados ausentes

  • Importância/relevância dos dados
  • Volume de dados
  • Fonte dos dados

Tabela com dados ausentes

Tabela com dados ausentes imputada

Introdução ao Power Query no Excel

Outliers e erros de entrada

Outliers

  • Pontos que se desviam muito da maioria no conjunto de dados.
  • Podem ser erro de digitação (entrada) ou valor real.

Tratando outliers

  • Considere o impacto na análise
  • Imputação

Dispersão com outlier e seta

Introdução ao Power Query no Excel

Dados duplicados

Por que dados duplicados são um problema?

  • Imprecisão dos dados.
  • Mais uso de armazenamento e processamento.
  • Integridade dos dados.

Tabela com dados duplicados destacada

Introdução ao Power Query no Excel

Dados duplicados

Por que dados duplicados são um problema?

  • Imprecisão dos dados.
  • Mais uso de armazenamento e processamento.
  • Integridade dos dados.

Tabela com dados duplicados tachados

Tabela com dados duplicados removidos

Introdução ao Power Query no Excel

Vamos praticar!

Introdução ao Power Query no Excel

Preparing Video For Download...