Voorwaardelijke expectations

Kennismaking met Datakwaliteit met Great Expectations

Davina Moossazadeh

Data Scientist

Wat zijn voorwaardelijke expectations?

Voorwaardelijke expectations - Expectations voor een subset van de data

Waarom? Sommige variabelen hangen af van waarden van andere variabelen

Bijvoorbeeld:

  • Een expectation dat de kolomwaarde star_rating 0 is voor alle rijen waar review_count 0 is
1 https://docs.greatexpectations.io/docs/core/customize_expectations/expectation_conditions/
Kennismaking met Datakwaliteit met Great Expectations

Syntaxis voor voorwaardelijke expectations

Dataset-expectations kun je voorwaardelijk maken met twee extra argumenten:

  1. row_condition
    • een booleaanse expressiestring die de subset data definieert waarop de voorwaardelijke expectation wordt toegepast
  2. condition_parser
    • een string die de syntaxis van row_condition bepaalt
Kennismaking met Datakwaliteit met Great Expectations

De condition parser

Bij pandas moet dit argument worden gezet op "pandas"

expectation = gx.Expect...(
    **kwargs,
    condition_parser="pandas",
    row_condition=...
)
Kennismaking met Datakwaliteit met Great Expectations

De rijvoorwaarde

pandas-syntaxis
df["foo"] == 'Two Two'
df["foo"].notNull()
df["foo"] <= datetime.date(2023, 3, 13)
(df["foo"] < 5) & (df["foo"] >= 3.14)

df["foo"].str.startswith("bar")
Great Expectations row_condition
'foo == "Two Two"'
'foo.notNull()'
'foo <= datetime.date(2023, 3, 13)'
'(foo > 5) & (foo <= 3.14)'
'foo > 5 and foo <= 3.14'
'foo.str.startswith("bar")'
Kennismaking met Datakwaliteit met Great Expectations

De rijvoorwaarde

Regels
  1. Gebruik geen enkele aanhalingstekens binnen

    • row_condition="foo=='Two Two'"
    • row_condition='foo=="Two Two"' Vinkje dat aangeeft dat de syntaxis van `row_condition` in het tweede opsommingsteken correct is.
  2. Gebruik geen regeleinden binnen

    • row_condition="""
      foo=="Two Two"
      """  
      
    • row_condition='foo=="Two Two"' Vinkje dat aangeeft dat de syntaxis van `row_condition` in het tweede opsommingsteken correct is.
Kennismaking met Datakwaliteit met Great Expectations

Voorbeeldexpectation: sterrenbeoordeling

Geen voorwaarde
expectation = gx.expectations.\
ExpectColumnValuesToBeBetween(
    column="price_usd",
    max_value=10,
)
validation_results = batch.validate(
    expect=expectation
)
print(validation_results.success)
False
Voorwaardelijk
expectation = gx.expectations.\
ExpectColumnValuesToBeBetween(
    column="price_usd",
    max_value=10,
    condition_parser='pandas',
    row_condition='mark_price_usd < 10',
)
validation_results = batch.validate(
    expect=expectation
)
print(validation_results.success)
True
Kennismaking met Datakwaliteit met Great Expectations

Laten we oefenen!

Kennismaking met Datakwaliteit met Great Expectations

Preparing Video For Download...