Termos e conceitos de qualidade de dados

Introdução à Qualidade de Dados

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Definição da qualidade dos dados

  • Qualidade de dados: grau de adequação à finalidade
  • Boa qualidade = confiança nos dados
    • Melhores decisões de negócios
    • Processos de negócios mais eficientes
  • A boa qualidade dos dados é frequentemente presumida
  • A qualidade dos dados deve ser monitorada para garantir seu uso adequado.

tabela de dados

Introdução à Qualidade de Dados

Definição das dimensões da qualidade dos dados

Dimensão da qualidade: medida de um atributo específico dos dados

  • Use dimensões de qualidade para quantificar a adequação dos dados.
    • Completude
    • Validade
    • Unicidade
    • Consistência
    • Pontualidade
    • Precisão

cubo

Introdução à Qualidade de Dados

Integridade como dimensão de qualidade

grade quadrada

Completude:

  • Nível do conjunto de dados: mede a presença dos registros esperados.
  • Nível de elemento de dados: mede a presença de dados esperados
  • Problemas comerciais por dados incompletos:
    • Os números podem estar distorcidos
    • Os clientes podem ser afetados
Introdução à Qualidade de Dados

Exemplo de completude

tabela de dados

Todos os registros devem ter um valor preenchido no campo CustomerName.

Introdução à Qualidade de Dados

Validade como dimensão de qualidade

Validade: mede a validade dos valores em um dado

  • Requer contexto comercial
  • Definir lista ou critérios para valores válidos
  • Medida numérica de validade = contagem de válidos/contagem total

grade quadrada

Introdução à Qualidade de Dados

Exemplo de validade

tabela de dados

  • O valor de CustomerBirthDate deve ser uma data futura.
  • O valor de CustomerAccountType deve ser Loan (Empréstimo) ou Deposit (Depósito).
  • O valor de LatestAccountOpenDate deve ser uma data no passado.
Introdução à Qualidade de Dados

Unicidade como dimensão de qualidade

quadrado listrado

Unicidade: mede a ausência de duplicação nos registros

  • Requer contexto comercial para definir critérios para determinar registros únicos
  • Pode ser necessário procurar duplicatas em uma ou várias colunas para identificar erros
Introdução à Qualidade de Dados

Exemplo de unicidade

tabela de dados

Todos os registros devem ter um CustomerID e um CustomerName únicos.

Introdução à Qualidade de Dados

Vamos praticar!

Introdução à Qualidade de Dados

Preparing Video For Download...