Limpeza de dados

Conceitos de Data Warehousing

Aaren Stubberfield

Data Scientist

Agenda do vídeo

  • Revisão de formato
  • Parsing de endereços
  • Validação de dados
  • Remoção de duplicados
Conceitos de Data Warehousing

Limpeza de formato

  • Atualize valores para o formato esperado
    • Datas
    • Nomes de opções
    • Capitalização
  • Garante saída em formato consistente

Exemplo de dados de táxi

Duas tabelas combinadas em uma

Conceitos de Data Warehousing

Parsing de endereço

  • Dividir um endereço em seus componentes
  • Pode usar ferramentas para validar endereços
Endereço
1234 S Normal St, Cleveland, OH 44102
Endereço Cidade Estado CEP
1234 S Normal St Cleveland OH 44102
Conceitos de Data Warehousing

Validação de dados

  • Verificação de faixa
    • O valor está na faixa esperada?
    • Exemplo: idade de uma pessoa
  • Verificação de tipo
    • O valor é do tipo correto?
    • Exemplo: idade como string vs número

Tabela de Idade com a primeira linha como 300, marcada como inválida.

Tabela com três colunas, com Idade na primeira coluna como tipo string, marcada como inválida.

Conceitos de Data Warehousing

Eliminação de duplicados

  • Esse processo remove linhas duplicadas

imagem de duas tabelas com duas colunas a serem unidas

a tabela final unida sem a linha duplicada

Conceitos de Data Warehousing

Governança de dados

Ilustração de conformidade regulatória

Conceitos de Data Warehousing

Vamos praticar!

Conceitos de Data Warehousing

Preparing Video For Download...