Termini e concetti di qualità dei dati

Introduzione alla qualità dei dati

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Definire la qualità dei dati

  • Qualità dei dati: una misura del grado di idoneità dei dati in base allo scopo
  • Buona qualità dei dati = fiducia nei dati
    • Migliori decisioni aziendali
    • Processi aziendali meglio attrezzati
  • Spesso si presuppone una buona qualità dei dati
  • La qualità dei dati deve essere misurata e monitorata per garantire che i dati siano adatti all'uso.

tabella dati

Introduzione alla qualità dei dati

Definire le dimensioni della qualità dei dati

Dimensione della qualità dei dati: misura di un attributo specifico della qualità dei dati

  • Utilizza le dimensioni della qualità dei dati per quantificarne l'idoneità allo scopo.
    • Completezza
    • Validità
    • Unicità
    • Coerenza
    • Tempestività
    • Accuratezza

cubo

Introduzione alla qualità dei dati

Completezza come dimensione della qualità

griglia quadrata

Completezza:

  • Livello del set di dati: misura il grado di presenza di tutti i record previsti in un set di dati.
  • Livello degli elementi dei dati: misura il grado di popolamento dei dati in tutti i record quando previsto.
  • Problemi di business dovuti a dati incompleti:
    • I numeri possono essere distorti
    • I clienti possono essere interessati
Introduzione alla qualità dei dati

Esempio di completezza

tabella dati

Tutti i record devono avere un valore popolato nel campo CustomerName.

Introduzione alla qualità dei dati

Validità come dimensione della qualità

Validità: misura il grado di validità dei valori di un elemento di dati

  • Richiede un contesto aziendale
  • Definisce l'elenco o i criteri per i valori validi
  • Misurazione numerica della validità = conteggio del conteggio valido/totale

griglia quadrata

Introduzione alla qualità dei dati

Esempio di validità

tabella dati

  • Il valore CustomerBirthDate deve essere una data futura.
  • Il valore CustomerAccountType deve essere Prestito o Deposito.
  • Il valore LatestAccountOpenDate deve essere una data passata.
Introduzione alla qualità dei dati

Unicità come dimensione della qualità

quadrato a righe

Unicità: misura il grado di non duplicazione dei record di un set di dati

  • Richiede un contesto aziendale per definire i criteri per determinare i record unici
  • Potrebbe essere necessario cercare duplicati in una o più colonne per identificare gli errori
Introduzione alla qualità dei dati

Esempio di unicità

tabella dati

Tutti i record devono avere un unico CustomerID e CustomerName.

Introduzione alla qualità dei dati

Passiamo alla pratica!

Introduzione alla qualità dei dati

Preparing Video For Download...