Schema-verwachtingen

Kennismaking met Datakwaliteit met Great Expectations

Davina Moossazadeh

Data Scientist

Vorm- en schema-verwachtingen

Expectation - Een verifieerbare bewering over data

  • Kolom-verwachtingen
  • Vorm- en schema-verwachtingen
    • schema - het blauwdruk van de structuur van een dataset
1 https://docs.greatexpectations.io/docs/reference/learn/terms/expectation
Kennismaking met Datakwaliteit met Great Expectations

Rijtelling

row_count_expectation = gx.expectations.ExpectTableRowCountToEqual(
    value=118000
)

validation_results = batch.validate(expect=row_count_expectation)
print(validation_results.success)
False
print(validation_results.result)
{'observed_value': 118066}
Kennismaking met Datakwaliteit met Great Expectations

Bereik rijtellingen

Gebruik ExpectTableRowCountToBeBetween om een bereik voor rij-aantallen te definiëren:

row_count_expectation = gx.expectations.ExpectTableRowCountToBeBetween(

min_value=117000, max_value=119000 )
validation_results = batch.validate(expect=row_count_expectation)
print(validation_results.success)
True
print(validation_results.result)
{'observed_value': 118066}
Kennismaking met Datakwaliteit met Great Expectations

Kolomtelling

col_count_expectation = gx.expectations.ExpectTableColumnCountToEqual(
    value=15
)
validation_results = batch.validate(expect=col_count_expectation)
print(validation_results.success)
False
print(validation_result.result)
{'observed_value': 18}
Kennismaking met Datakwaliteit met Great Expectations

Bereik kolomtelling

Gebruik ExpectTableColumnCountToBeBetween om een bereik voor het aantal kolommen te definiëren:

col_count_expectation = gx.expectations.ExpectTableColumnCountToBeBetween(
    min_value=14, max_value=18
)
validation_results = batch.validate(expect=col_count_expectation)
print(validation_results.success)
True
print(validation_result.result)
{'observed_value': 18}
Kennismaking met Datakwaliteit met Great Expectations

Sets met kolomnamen

Gebruik ExpectTableColumnsToMatchSet om kolomnamen te valideren tegen een set:

expected_cols = ['clouds_all', 'snow_1h', 'rain_1h', 'wind_speed', 'humidity', 
'pressure', 'temp', 'GHI', 'Energy delta[Wh]', 'Time', 'Time']

col_names_expectation = gx.expectations.ExpectTableColumnsToMatchSet( column_set=expected_cols )
print(col_names_expectation.success, col_names_expectation.result)
True 
{'observed_value': ['Time', 'Energy delta[Wh]', 'GHI', 'temp', 'pressure',
'humidity', 'wind_speed', 'rain_1h', 'snow_1h', 'clouds_all'}
Kennismaking met Datakwaliteit met Great Expectations

Individuele kolomnamen

Gebruik ExpectColumnToExist om te controleren of een specifieke kolom in de dataset staat:

col_name_expectation = gx.expectations.ExpectColumnToExist(column="not_a_column")
validation_result = batch.validate(expect=col_name_expectation)
print(validation_result.success)
False
col_name_expectation = gx.expectations.ExpectColumnToExist(column="GHI")
validation_result = batch.validate(expect=col_name_expectation)
print(validation_result.success)
True
Kennismaking met Datakwaliteit met Great Expectations

Spiekkaart

Vorm-verwachtingen:

ExpectTableRowCountToEqual(value: int)
ExpectTableRowCountToBeBetween(
    min_value: int, max_value: int
)
ExpectTableColumnCountToEqual(
    value: int
)
ExpectTableColumnCountToBeBetween(
    min_value: int, max_value: int
)

Kolomnaam-verwachtingen:

ExpectTableColumnsToMatchSet(
    column_set: set
)
ExpectColumnToExist(column: str)
Kennismaking met Datakwaliteit met Great Expectations

Laten we oefenen!

Kennismaking met Datakwaliteit met Great Expectations

Preparing Video For Download...