Limpeza de dados
Conceitos de Data Warehousing
Aaren Stubberfield
Data Scientist
Agenda do vídeo
Revisão de formato
Parsing de endereços
Validação de dados
Remoção de duplicados
Limpeza de formato
Atualize valores para o formato esperado
Datas
Nomes de opções
Capitalização
Garante saída em formato consistente
Exemplo de dados de táxi
Parsing de endereço
Dividir um endereço em seus componentes
Pode usar ferramentas para validar endereços
Endereço
1234 S Normal St, Cleveland, OH 44102
Endereço
Cidade
Estado
CEP
1234 S Normal St
Cleveland
OH
44102
Validação de dados
Verificação de faixa
O valor está na faixa esperada?
Exemplo: idade de uma pessoa
Verificação de tipo
O valor é do tipo correto?
Exemplo: idade como string vs número
Eliminação de duplicados
Esse processo remove linhas duplicadas
Governança de dados
Vamos praticar!
Conceitos de Data Warehousing
Preparing Video For Download...