Ekspektasi Kolom Dasar

Pengantar Data Quality dengan Great Expectations

Davina Moossazadeh

Data Scientist

Dataset Shein Footwear

Lima baris pertama Dataset Shein Footwear dari Kaggle, dimuat ke pandas. DataFrame memiliki kolom: "name", "link", "price_usd", "mark_price_usd", "star_rating", "colour", "seller_name", "review_count", "sku_id", dan "hero_image".

1 https://www.kaggle.com/datasets/atharvataras/shein-footwear-dataset
Pengantar Data Quality dengan Great Expectations

Ekspektasi tingkat baris

  • Ekspektasi tingkat baris diterapkan ke tiap baris secara independen
    • berhasil hanya jika kondisi terpenuhi untuk setiap baris
Pengantar Data Quality dengan Great Expectations

Ekspektasi tingkat baris

Ekspektasi missingness

gx.expectations.ExpectColumnValuesToNotBeNull(
    column="colour"
)

Ekspektasi tipe

gx.expectations.ExpectColumnValuesToBeOfType(
    column="review_count", type_="str"
)
Pengantar Data Quality dengan Great Expectations

Ekspektasi tingkat agregat: nilai berbeda

Ekspektasi nilai berbeda

gx.expectations.ExpectColumnDistinctValuesToEqualSet(
    column="seller_name", value_set={"Womens Shoes"}
)
Pengantar Data Quality dengan Great Expectations

Ekspektasi tingkat agregat: jumlah nilai unik

Ekspektasi jumlah nilai unik

gx.expectations.ExpectColumnUniqueValueCountToBeBetween(
    column="review_count", min_value=5, max_value=101
)
Pengantar Data Quality dengan Great Expectations

Ekspektasi tingkat agregat: keunikan

Ekspektasi keunikan

gx.expectations.ExpectColumnValuesToBeUnique(
    column="sku_id"
)
Pengantar Data Quality dengan Great Expectations

Ekspektasi tingkat agregat: modus

Ekspektasi modus

gx.expectations.ExpectColumnMostCommonValueToBeInSet(
    column="colour", value_set={"Khaki", "Purple", "Grey"}
)
Pengantar Data Quality dengan Great Expectations

Lembar contekan

Ekspektasi tingkat baris:

ExpectColumnValuesToNotBeNull(
    column: str
)
ExpectColumnValuesToBeOfType(
    column: str, type_: str
)

Ekspektasi tingkat agregat:

ExpectColumnDistinctValuesToEqualSet(
    column: str, value_set: set
)
ExpectColumnUniqueValueCountToBeBetween(
    column: str, 
    min_value: int, max_value: int
)
ExpectColumnValuesToBeUnique(column: str)
ExpectColumnMostCommonValueToBeInSet(
    column: str, value_set: set
)
Pengantar Data Quality dengan Great Expectations

Ayo berlatih!

Pengantar Data Quality dengan Great Expectations

Preparing Video For Download...