Crea un Data Context

Introduzione alla Data Quality con Great Expectations

Davina Moossazadeh

Data Scientist

Cos’è la qualità dei dati?

Quanto un dataset è adatto allo scopo

  • Completezza
  • Accuratezza
  • Validità
  • Unicità
  • Tempestività
  • Integrità
  • Coerenza
  • ecc.

Un grafico a dispersione con un cluster di valori e un outlier,

1 https://nitin9809.medium.com/outlier-detection-and-treatment-part-1-aa0b09f60e50
Introduzione alla Data Quality con Great Expectations

Perché la qualità dei dati è importante?

Spazzatura in ingresso.

Un modello straordinario che riceve spazzatura in input.

Spazzatura in uscita.

Un modello è buono solo quanto i dati in input!

Introduzione alla Data Quality con Great Expectations

Che cos’è Great Expectations?

Logo di Great Expectations.

Great Expectations (GX) - Piattaforma per la gestione della qualità dei dati

  • GX Cloud - interfaccia web
  • GX Core - pacchetto Python
Introduzione alla Data Quality con Great Expectations

Expectations

Expectation - Affermazione verificabile sui dati

  • Forma del dataset
  • Valori nulli
  • Duplicati
  • Insiemi/intervalli di valori
  • Formattazione stringhe
  • Distribuzioni dei dati
  • Problemi di qualità dei dati
  • ecc.

images-1.png

1 https://docs.greatexpectations.io/docs/core/define_expectations/create_an_expectation/ https://mathbitsnotebook.com/Algebra2/Statistics/STnormalDistribution.html
Introduzione alla Data Quality con Great Expectations

Data Contexts

Data Context - Punto d’ingresso principale per un’installazione GX

  • Configurazioni e metodi per tutti i componenti GX
    • Data Sources
    • Expectation Suites
    • Checkpoints
    • Data Docs
    • Validation Results
    • Metrics
1 https://docs.greatexpectations.io/docs/core/set_up_a_gx_environment/create_a_data_context/
Introduzione alla Data Quality con Great Expectations

Importare GX

Importa Great Expectations con l’alias gx:

import great_expectations as gx
Introduzione alla Data Quality con Great Expectations

Creare un Data Context

Usa get_context() per creare il Data Context:

context = gx.get_context()

print(context)
{ "analytics_enabled": true,
  "checkpoint_store_name": "default_checkpoint_store",
  "config_variables_file_path": "uncommitted/config_variables.yml",
  "config_version": 4.0,
  "data_context_id": "5b407294-b17c-43e3-aa5f-4f8a4741e772",
  "expectations_store_name": "default_expectations_store",
  "fluent_datasources": {},
  "plugins_directory": "plugins/",
  "stores": {},
  "validation_results_store_name": "default_validations_store" }
Introduzione alla Data Quality con Great Expectations

Passiamo alla pratica !

Introduzione alla Data Quality con Great Expectations

Preparing Video For Download...