Expectations maken

Kennismaking met Datakwaliteit met Great Expectations

Davina Moossazadeh

Data Scientist

Expectations

Expectation - Een verifieerbare bewering over data

  • Kolom-Expectations
  • Vorm- en schema-Expectations
    • schema - het blauwdruk van de structuur van een dataset
1 https://docs.greatexpectations.io/docs/reference/learn/terms/expectation
Kennismaking met Datakwaliteit met Great Expectations

Expectations

Expectation - Een verifieerbare bewering over data

  • Kolom-Expectations
  • Vorm- en schema-Expectations
    • schema - de blauwdruk van de structuur van een dataset
1 https://docs.greatexpectations.io/docs/reference/learn/terms/expectation
Kennismaking met Datakwaliteit met Great Expectations

De Renewable Power Generation-dataset

Een pandas DataFrame met de Renewable Power Generation-data, met de kolommen: "Time", "Energy delta[Wh]", "GHI", "temp", "pressure", "humidity", "wind_speed", "rain_1h", "snow_1h" en "clouds_all". Het DataFrame heeft 118.066 rijen.

1 https://www.kaggle.com/datasets/pythonafroz/renewable-power-generation-and-weather-conditions
Kennismaking met Datakwaliteit met Great Expectations

Een Expectation maken

gx.expectations.Expect...(...)

GX-klassen (Expectations): PascalCase

GX-functies/methodes: snake_case

1 https://docs.greatexpectations.io/docs/core/define_expectations/create_an_expectation/
Kennismaking met Datakwaliteit met Great Expectations

Een Expectation maken

row_count_expectation = gx.expectations.ExpectTableRowCountToEqual(

value=118000 )
validation_results = batch.validate(
expect=row_count_expectation )
1 https://docs.greatexpectations.io/docs/core/define_expectations/create_an_expectation/ https://docs.greatexpectations.io/docs/core/define_expectations/test_an_expectation/
Kennismaking met Datakwaliteit met Great Expectations

Een Expectation beoordelen

print(validation_results)
{ 
    "success": false,
    "expectation_config": {
        "type": "expect_table_row_count_to_equal",
        "kwargs": {"batch_id": "my_pandas_datasource-my_dataframe_asset", "value": 118000},
        "meta": {},
        "rendered_content": [{"name": "atomic.prescriptive.summary", "value": {"schema": {"type": "com.superconductive.rendered.string"}, "template": "Must have exactly $value rows.", "params": {"value": {"schema": {"type": "number"}, "value": 118000}}}, "value_type": "StringValueType"}]
    },
    "result": {"observed_value": 118066},
    "meta": {},
    "exception_info": {"raised_exception": false, "exception_traceback": null, "exception_message": null},
    "rendered_content": [{"name": "atomic.diagnostic.observed_value", "value": {"schema": {"type": "com.superconductive.rendered.string"}, "template": "118066", "params": {}}, "value_type": "StringValueType"}]
}
1 https://docs.greatexpectations.io/docs/core/run_validations/run_a_validation_definition/
Kennismaking met Datakwaliteit met Great Expectations

Een Expectation beoordelen

print(validation_results.describe())
{
    "expectation_type": "expect_table_row_count_to_equal",
    "success": false,
    "kwargs": {
        "batch_id": "my_pandas_datasource-my_dataframe_asset",
        "value": 118000
    },
    "result": {
        "observed_value": 118066
    }
}
Kennismaking met Datakwaliteit met Great Expectations

Een Expectation beoordelen

print(validation_results.success)
False
print(validation_results["success"])
False
Kennismaking met Datakwaliteit met Great Expectations

Een Expectation beoordelen

print(validation_results.result)
{'observed_value': 118066}
print(validation_results["result"])
{'observed_value': 118066}
Kennismaking met Datakwaliteit met Great Expectations

Andere veelgebruikte Expectations

Vorm-Expectations:

ExpectTableRowCountToEqual(value: int)
ExpectTableRowCountToBeBetween(
    min_value: int, max_value: int
)
ExpectTableColumnCountToEqual(
    value: int
)
ExpectTableColumnCountToBeBetween(
    min_value: int, max_value: int
)

Expectations voor kolomnamen:

ExpectTableColumnsToMatchSet(
    column_set: set
)
ExpectColumnToExist(column: str)
Kennismaking met Datakwaliteit met Great Expectations

Spiekbriefje

Maak een Expectation:

gx.expectations.Expect...(...)

Valideer een Expectation:

validation_results = batch.validate(
    expect=expectation
)

Maak een rijtelf-Expectation:

expectation = gx.expectations. \
ExpectTableRowCountToEqual(
    value: int
)

Controleer validatieresultaten:

validation_results.describe()
validation_results.success
validation_results.result
Kennismaking met Datakwaliteit met Great Expectations

Laten we oefenen!

Kennismaking met Datakwaliteit met Great Expectations

Preparing Video For Download...