Termini e concetti sulla qualità dei dati

Introduzione alla qualità dei dati

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Definire la qualità dei dati

  • Qualità dei dati: misura di quanto i dati siano adatti allo scopo
  • Buona qualità = fiducia nei dati
    • Decisioni di business migliori
    • Processi di business più efficaci
  • Spesso si presume una buona qualità
  • La qualità va misurata e monitorata per garantire che i dati siano adatti all’uso.

tabella dati

Introduzione alla qualità dei dati

Definire le dimensioni della qualità dei dati

Dimensione della qualità dei dati: misura di uno specifico attributo della qualità dei dati

  • Usa le dimensioni della qualità per quantificare l’idoneità allo scopo.
    • Completezza
    • Validità
    • Unicità
    • Coerenza
    • Tempestività
    • Accuratezza

cubo

Introduzione alla qualità dei dati

Completezza come dimensione della qualità dei dati

griglia quadrata

Completezza:

  • Livello dataset: misura quanto siano presenti tutti i record attesi.
  • Livello elemento: misura quanto i record abbiano dati valorizzati quando previsto.
  • Problemi di business dovuti a dati incompleti:
    • Numeri distorti
    • Impatto sui clienti
Introduzione alla qualità dei dati

Esempio di completezza

tabella dati

Tutti i record devono avere un valore nel campo CustomerName.

Introduzione alla qualità dei dati

Validità come dimensione della qualità dei dati

Validità: misura quanto i valori in un elemento dati siano validi

  • Richiede contesto di business
  • Definisci elenco o criteri dei valori validi
  • Misura numerica = validi/totale

griglia quadrata

Introduzione alla qualità dei dati

Esempio di validità

tabella dati

  • CustomerBirthDate deve essere una data passata.
  • CustomerAccountType deve essere Loan o Deposit.
  • LatestAccountOpenDate deve essere una data passata.
Introduzione alla qualità dei dati

Unicità come dimensione della qualità dei dati

quadrato a righe

Unicità: misura quanto i record in un dataset non siano duplicati

  • Richiede contesto di business per definire i criteri di unicità
  • Potrebbe servire cercare duplicati in una o più colonne per trovare errori
Introduzione alla qualità dei dati

Esempio di unicità

tabella dati

Tutti i record devono avere CustomerID e CustomerName univoci.

Introduzione alla qualità dei dati

Passiamo alla pratica!

Introduzione alla qualità dei dati

Preparing Video For Download...