Great Expectations ile Veri Kalitesine Giriş
Davina Moossazadeh
Data Scientist
Expectation - Veriye dair doğrulanabilir bir iddia
row_count_expectation = gx.expectations.ExpectTableRowCountToEqual( value=118000 )validation_results = batch.validate(expect=row_count_expectation)
print(validation_results.success)
False
print(validation_results.result)
{'observed_value': 118066}
Satır sayısı için bir aralık tanımlamak üzere ExpectTableRowCountToBeBetween kullanın:
row_count_expectation = gx.expectations.ExpectTableRowCountToBeBetween(min_value=117000, max_value=119000 )validation_results = batch.validate(expect=row_count_expectation)
print(validation_results.success)
True
print(validation_results.result)
{'observed_value': 118066}
col_count_expectation = gx.expectations.ExpectTableColumnCountToEqual(
value=15
)
validation_results = batch.validate(expect=col_count_expectation)
print(validation_results.success)
False
print(validation_result.result)
{'observed_value': 18}
Sütun sayısı için bir aralık tanımlamak üzere ExpectTableColumnCountToBeBetween kullanın:
col_count_expectation = gx.expectations.ExpectTableColumnCountToBeBetween(
min_value=14, max_value=18
)
validation_results = batch.validate(expect=col_count_expectation)
print(validation_results.success)
True
print(validation_result.result)
{'observed_value': 18}
Sütun adlarını bir kümeye göre doğrulamak için ExpectTableColumnsToMatchSet kullanın:
expected_cols = ['clouds_all', 'snow_1h', 'rain_1h', 'wind_speed', 'humidity', 'pressure', 'temp', 'GHI', 'Energy delta[Wh]', 'Time', 'Time']col_names_expectation = gx.expectations.ExpectTableColumnsToMatchSet( column_set=expected_cols )print(col_names_expectation.success, col_names_expectation.result)
True
{'observed_value': ['Time', 'Energy delta[Wh]', 'GHI', 'temp', 'pressure',
'humidity', 'wind_speed', 'rain_1h', 'snow_1h', 'clouds_all'}
Veri setinde belirli bir sütunun olup olmadığını kontrol etmek için ExpectColumnToExist kullanın:
col_name_expectation = gx.expectations.ExpectColumnToExist(column="not_a_column")
validation_result = batch.validate(expect=col_name_expectation)
print(validation_result.success)
False
col_name_expectation = gx.expectations.ExpectColumnToExist(column="GHI")
validation_result = batch.validate(expect=col_name_expectation)
print(validation_result.success)
True
Biçim (shape) Beklentileri:
ExpectTableRowCountToEqual(value: int)
ExpectTableRowCountToBeBetween(
min_value: int, max_value: int
)
ExpectTableColumnCountToEqual(
value: int
)
ExpectTableColumnCountToBeBetween(
min_value: int, max_value: int
)
Sütun adı Beklentileri:
ExpectTableColumnsToMatchSet(
column_set: set
)
ExpectColumnToExist(column: str)
Great Expectations ile Veri Kalitesine Giriş