Termos e conceitos de qualidade de dados

Introdução à Qualidade de Dados

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Definindo qualidade de dados

  • Qualidade de dados: medida de quão aptos os dados estão para o uso
  • Boa qualidade = confiança nos dados
    • Melhores decisões
    • Processos mais eficazes
  • Muitas vezes se assume boa qualidade
  • A qualidade deve ser medida e monitorada para garantir uso adequado.

tabela de dados

Introdução à Qualidade de Dados

Definindo dimensões de qualidade de dados

Dimensão de qualidade de dados: medida de um atributo específico da qualidade dos dados

  • Use dimensões para quantificar o quão aptos os dados estão ao propósito.
    • Completude
    • Validade
    • Unicidade
    • Consistência
    • Atualidade
    • Exatidão

cubo

Introdução à Qualidade de Dados

Completude como dimensão de qualidade de dados

grade quadriculada

Completude:

  • No nível do conjunto: mede se todos os registros esperados estão presentes.
  • No nível do elemento: mede se todos os registros têm dados quando esperado.
  • Problemas de negócio com dados incompletos:
    • Números podem ficar distorcidos
    • Clientes podem ser afetados
Introdução à Qualidade de Dados

Exemplo de completude

tabela de dados

Todos os registros devem ter valor no campo CustomerName.

Introdução à Qualidade de Dados

Validade como dimensão de qualidade de dados

Validade: mede quanto os valores de um elemento de dados são válidos

  • Exige contexto de negócio
  • Defina lista ou critérios de valores válidos
  • Medida numérica = válidos/total

grade quadriculada

Introdução à Qualidade de Dados

Exemplo de validade

tabela de dados

  • CustomerBirthDate deve ser uma data no passado.
  • CustomerAccountType deve ser Loan ou Deposit.
  • LatestAccountOpenDate deve ser uma data no passado.
Introdução à Qualidade de Dados

Unicidade como dimensão de qualidade de dados

quadrado listrado

Unicidade: mede o quanto os registros de um conjunto não estão duplicados

  • Exige contexto de negócio para definir critérios de unicidade
  • Pode ser preciso buscar duplicatas em uma ou mais colunas
Introdução à Qualidade de Dados

Exemplo de unicidade

tabela de dados

Todos os registros devem ter CustomerID e CustomerName únicos.

Introdução à Qualidade de Dados

Vamos praticar!

Introdução à Qualidade de Dados

Preparing Video For Download...