Problemas comuns de dados

Introdução à alfabetização de dados

Jess Ahmet

Content Developer, DataCamp

Dados sujos

  • Os dados sujos são:

    • Incorretos
    • Incompletos
    • Inconsistentes
  • Causados por erro humano, problemas técnicos ou problemas com o processo de coleta de dados

  • Princípio de "lixo dentro, lixo fora": dados sujos podem levar a conclusões erradas

Janela suja

Introdução à alfabetização de dados

Erros de dados

  • Os dados são incorretos ou inconsistentes
  • Normalmente causados por erro humano ou técnico no registro do valor ou formato
  • Técnicas para combater:
    • Se o valor original ou o formato válido for conhecido: corrigir dados
    • Se desconhecido: descartar dados

Quebra-cabeça com a peça errada

Introdução à alfabetização de dados

Dados ausentes

  • Os dados estão incompletos
  • Problemático se:
    • Muitos pontos de dados estão faltando
    • Há padrões subjacentes nos dados ausentes
  • Técnicas para combater:
    • Descartar dados
    • Imputação

Quebra-cabeça com peça faltando

Introdução à alfabetização de dados

Viés de dados

  • O viés social pode ser refletido nos dados como viés de dados
  • Leva a dados e resultados não representativos
  • Difícil de detectar e resolver
  • Técnicas para combater:
    • Processo sólido de coleta de dados
    • Conscientização nas conclusões
    • Modelos de IA explicáveis

Quebra-cabeça cinza com peças brancas deixadas de fora

Introdução à alfabetização de dados

Limpeza de dados

  • Conjunto de técnicas para combater problemas de dados
  • Etapa importante de preparação para qualquer análise de dados
  • Mas nem todos os problemas de dados são (completamente) solucionáveis
  • Sempre é possível fazer algum tipo de análise

Mão com luva e frasco de spray

Introdução à alfabetização de dados

Vamos praticar!

Introdução à alfabetização de dados

Preparing Video For Download...