Maak een Data Context

Kennismaking met Datakwaliteit met Great Expectations

Davina Moossazadeh

Data Scientist

Wat is datakwaliteit?

Hoe geschikt een dataset is voor het beoogde doel

  • Volledigheid
  • Nauwkeurigheid
  • Geldigheid
  • Uniekheid
  • Actualiteit
  • Integriteit
  • Consistentie
  • enz.

Een spreidingsdiagram met een cluster en een uitschieter,

1 https://nitin9809.medium.com/outlier-detection-and-treatment-part-1-aa0b09f60e50
Kennismaking met Datakwaliteit met Great Expectations

Waarom is datakwaliteit belangrijk?

Afval gaat erin.

Een geweldig model dat afval als input krijgt.

Afval komt eruit.

Een model is maar zo goed als de data die je erin stopt!

Kennismaking met Datakwaliteit met Great Expectations

Wat is Great Expectations?

Great Expectations-logo.

Great Expectations (GX) - Platform voor datakwaliteitsbeheer

  • GX Cloud - webgebaseerde UI
  • GX Core - Python-pakket
Kennismaking met Datakwaliteit met Great Expectations

Expectations

Expectation - Verifieerbare uitspraak over data

  • Datasetvorm
  • Null-waarden
  • Duplicaten
  • Waardesets/-bereiken
  • Stringopmaak
  • Dataverdelingen
  • Datakwaliteitsproblemen
  • enz.

images-1.png

1 https://docs.greatexpectations.io/docs/core/define_expectations/create_an_expectation/ https://mathbitsnotebook.com/Algebra2/Statistics/STnormalDistribution.html
Kennismaking met Datakwaliteit met Great Expectations

Data Contexts

Data Context - Het belangrijkste startpunt voor een GX-implementatie

  • Configuraties en methoden voor alle GX-componenten
    • Data Sources
    • Expectation Suites
    • Checkpoints
    • Data Docs
    • Validation Results
    • Metrics
1 https://docs.greatexpectations.io/docs/core/set_up_a_gx_environment/create_a_data_context/
Kennismaking met Datakwaliteit met Great Expectations

GX importeren

Importeer Great Expectations met alias gx:

import great_expectations as gx
Kennismaking met Datakwaliteit met Great Expectations

Een Data Context maken

Gebruik get_context() om de Data Context te maken:

context = gx.get_context()

print(context)
{ "analytics_enabled": true,
  "checkpoint_store_name": "default_checkpoint_store",
  "config_variables_file_path": "uncommitted/config_variables.yml",
  "config_version": 4.0,
  "data_context_id": "5b407294-b17c-43e3-aa5f-4f8a4741e772",
  "expectations_store_name": "default_expectations_store",
  "fluent_datasources": {},
  "plugins_directory": "plugins/",
  "stores": {},
  "validation_results_store_name": "default_validations_store" }
Kennismaking met Datakwaliteit met Great Expectations

Laten we oefenen!

Kennismaking met Datakwaliteit met Great Expectations

Preparing Video For Download...