Basisverwachtingen voor kolommen

Kennismaking met Datakwaliteit met Great Expectations

Davina Moossazadeh

Data Scientist

De Shein Footwear-dataset

De eerste vijf rijen van Kaggle’s Shein Footwear Dataset, geladen in pandas. De DataFrame heeft de kolommen: "name", "link", "price_usd", "mark_price_usd", "star_rating", "colour", "seller_name", "review_count", "sku_id" en "hero_image".

1 https://www.kaggle.com/datasets/atharvataras/shein-footwear-dataset
Kennismaking met Datakwaliteit met Great Expectations

Rijniveauverwachtingen

  • Rijniveauverwachtingen gelden per rij
    • slagen alleen als de voorwaarde voor elke rij geldt
Kennismaking met Datakwaliteit met Great Expectations

Rijniveauverwachtingen

Verwachting: ontbrekende waarden

gx.expectations.ExpectColumnValuesToNotBeNull(
    column="colour"
)

Verwachting: type

gx.expectations.ExpectColumnValuesToBeOfType(
    column="review_count", type_="str"
)
Kennismaking met Datakwaliteit met Great Expectations

Aggregaatverwachtingen: verschillende waarden

Verwachting: verschillende waarden

gx.expectations.ExpectColumnDistinctValuesToEqualSet(
    column="seller_name", value_set={"Womens Shoes"}
)
Kennismaking met Datakwaliteit met Great Expectations

Aggregaatverwachtingen: aantal unieke waarden

Verwachting: aantal unieke waarden

gx.expectations.ExpectColumnUniqueValueCountToBeBetween(
    column="review_count", min_value=5, max_value=101
)
Kennismaking met Datakwaliteit met Great Expectations

Aggregaatverwachtingen: uniekheid

Verwachting: uniekheid

gx.expectations.ExpectColumnValuesToBeUnique(
    column="sku_id"
)
Kennismaking met Datakwaliteit met Great Expectations

Aggregaatverwachtingen: modus

Verwachting: modus

gx.expectations.ExpectColumnMostCommonValueToBeInSet(
    column="colour", value_set={"Khaki", "Purple", "Grey"}
)
Kennismaking met Datakwaliteit met Great Expectations

Spiekbriefje

Rijniveauverwachtingen:

ExpectColumnValuesToNotBeNull(
    column: str
)
ExpectColumnValuesToBeOfType(
    column: str, type_: str
)

Aggregaatverwachtingen:

ExpectColumnDistinctValuesToEqualSet(
    column: str, value_set: set
)
ExpectColumnUniqueValueCountToBeBetween(
    column: str, 
    min_value: int, max_value: int
)
ExpectColumnValuesToBeUnique(column: str)
ExpectColumnMostCommonValueToBeInSet(
    column: str, value_set: set
)
Kennismaking met Datakwaliteit met Great Expectations

Laten we oefenen!

Kennismaking met Datakwaliteit met Great Expectations

Preparing Video For Download...