Aspettative di base sulle colonne

Introduzione alla Data Quality con Great Expectations

Davina Moossazadeh

Data Scientist

Il dataset Shein Footwear

Le prime cinque righe del dataset Shein Footwear di Kaggle, caricato in pandas. Il DataFrame ha le colonne: "name", "link", "price_usd", "mark_price_usd", "star_rating", "colour", "seller_name", "review_count", "sku_id" e "hero_image".

1 https://www.kaggle.com/datasets/atharvataras/shein-footwear-dataset
Introduzione alla Data Quality con Great Expectations

Aspettative a livello di riga

  • Le aspettative a livello di riga si applicano a ogni riga in modo indipendente
    • hanno successo solo se la condizione vale per ogni riga
Introduzione alla Data Quality con Great Expectations

Aspettative a livello di riga

Aspettativa su valori mancanti

gx.expectations.ExpectColumnValuesToNotBeNull(
    column="colour"
)

Aspettativa sul tipo

gx.expectations.ExpectColumnValuesToBeOfType(
    column="review_count", type_="str"
)
Introduzione alla Data Quality con Great Expectations

Aspettative a livello aggregato: valori distinti

Aspettativa sui valori distinti

gx.expectations.ExpectColumnDistinctValuesToEqualSet(
    column="seller_name", value_set={"Womens Shoes"}
)
Introduzione alla Data Quality con Great Expectations

Aspettative a livello aggregato: conteggio valori unici

Aspettativa sul conteggio di valori unici

gx.expectations.ExpectColumnUniqueValueCountToBeBetween(
    column="review_count", min_value=5, max_value=101
)
Introduzione alla Data Quality con Great Expectations

Aspettative a livello aggregato: unicità

Aspettativa di unicità

gx.expectations.ExpectColumnValuesToBeUnique(
    column="sku_id"
)
Introduzione alla Data Quality con Great Expectations

Aspettative a livello aggregato: moda

Aspettativa sulla moda

gx.expectations.ExpectColumnMostCommonValueToBeInSet(
    column="colour", value_set={"Khaki", "Purple", "Grey"}
)
Introduzione alla Data Quality con Great Expectations

Cheat sheet

Aspettative a livello di riga:

ExpectColumnValuesToNotBeNull(
    column: str
)
ExpectColumnValuesToBeOfType(
    column: str, type_: str
)

Aspettative a livello aggregato:

ExpectColumnDistinctValuesToEqualSet(
    column: str, value_set: set
)
ExpectColumnUniqueValueCountToBeBetween(
    column: str, 
    min_value: int, max_value: int
)
ExpectColumnValuesToBeUnique(column: str)
ExpectColumnMostCommonValueToBeInSet(
    column: str, value_set: set
)
Introduzione alla Data Quality con Great Expectations

Passiamo alla pratica!

Introduzione alla Data Quality con Great Expectations

Preparing Video For Download...