Applica le Expectation ai nuovi dati

Introduzione alla Data Quality con Great Expectations

Davina Moossazadeh

Data Scientist

Checkpoints

Checkpoint - Oggetto che raggruppa ed esegue Validation Definition con parametri condivisi

Schema di un Checkpoint, con il seguente flusso: Batch Requests -> Data Source -> Validation Definition. La Validation Definition produce Validation Results, che alimentano una Action List opzionale con una o più Actions.

Actions - Componenti configurati dai Checkpoint che integrano GX con altri strumenti in base ai Validation Results

1 https://docs.greatexpectations.io/docs/core/trigger_actions_based_on_results/create_a_checkpoint_with_actions/
Introduzione alla Data Quality con Great Expectations

Perché usare i Checkpoint?

Riutilizzabilità

  • Puoi eseguire più Validation Definition su un Batch

Actions

  • Puoi attivare Actions in base ai Validation Results
Introduzione alla Data Quality con Great Expectations

Creare un Checkpoint

$$

Creare un Checkpoint con notifica Slack via gx.Checkpoint():

checkpoint = gx.Checkpoint(

name="my_checkpoint",
validation_definitions=[validation_definition],
actions=[SlackNotificationAction()] # opzionale )
Introduzione alla Data Quality con Great Expectations

Errori del Checkpoint

Eseguire un Checkpoint prima di aggiungere la Validation Definition al Data Context genera un errore:

CheckpointRelatedResourcesFreshnessError: 
ValidationDefinition 'my_validation_definition' must be added to the DataContext 
before it can be updated. Please call `context.validation_definitions.add(
<VALIDATION_DEFINITION_OBJECT>)`, then try your action again.
Introduzione alla Data Quality con Great Expectations

Aggiungere una Validation Definition

Aggiungi la Validation Definition al Data Context con .validation_definitions.add():

validation_definition = context.validation_definitions.add(

validation_definition=validation_definition )
Introduzione alla Data Quality con Great Expectations

Eseguire un Checkpoint

checkpoint_results = checkpoint.run(
    batch_parameters={"dataframe": dataframe}
)

Risultati del Checkpoint. L'output è lungo e non entra nella slide.

Introduzione alla Data Quality con Great Expectations

Valutare i risultati del Checkpoint

print(checkpoint_results.success)
False
print(checkpoint_results.describe())
Introduzione alla Data Quality con Great Expectations

Valutare i risultati del Checkpoint

{ "success": false,
  "statistics": {
    "evaluated_expectations": 1, "successful_expectations": 0,
    "unsuccessful_expectations": 1, "success_percent": 0.0
  },
  "expectations": [{
    "expectation_type": "expect_table_row_count_to_equal",
    "success": false,
    "kwargs": {"batch_id": ""my_datasource-my_dataframe_asset", "value": 118000}, 
    "result": {"observed_value": 11866}}
  ],
  "result_url": "https://app.greatexpectations.io/organizations/my_org/data-assets/*/validations/expectation-suites/0a123b9c-e370-4b18-b703-785dde88732d/results/cb093105-6ede-47d4-a141-dee10c632e18"
}
Introduzione alla Data Quality con Great Expectations

Data Docs

Data Docs - siti statici generati dai metadati GX

# Checkpoint con Action per aggiornare i Data Docs
gx.Checkpoint(
    name,
    validation_definitions,
    actions=[
      gx.checkpoint.actions.UpdateDataDocsAction(
          name="update_my_site", site_names="my_data_docs_site"
        )
    ],
)
1 https://docs.greatexpectations.io/docs/core/configure_project_settings/configure_data_docs/
Introduzione alla Data Quality con Great Expectations

Data Docs

Screenshot di una pagina Data Docs, con un elenco di Expectation a livello tabella e i relativi valori osservati. Un'Expectation per l'intervallo di righe ha la tabella Validation History espansa, che mostra orario, valore osservato e min e max. In alto a destra, un riquadro verde con spunta dice "All Expectations met".

Introduzione alla Data Quality con Great Expectations

Cheat sheet

Aggiungi la Validation Definition al Data Context:

context.validation_definitions.add(
    validation_definition
)

Crea un Checkpoint:

checkpoint = gx.Checkpoint(
    name: str, 
    validation_definitions: list,
)

Esegui il Checkpoint:

checkpoint_results = checkpoint.run(
    batch_parameters={"dataframe": dataframe}
)

Verifica i risultati del Checkpoint:

checkpoint_results.success
checkpoint_results.describe()
Introduzione alla Data Quality con Great Expectations

Ayo berlatih!

Introduzione alla Data Quality con Great Expectations

Preparing Video For Download...