Kapanış

Great Expectations ile Veri Kalitesine Giriş

Davina Moossazadeh

Data Scientist

Bölüm 1: Veriye Bağlanma

Veri Bağlamı Oluşturma

context = gx.get_context()
Great Expectations ile Veri Kalitesine Giriş

Bölüm 1: Veriye Bağlanma

Veriye Bağlanma

Veri Bağlamından Veri Kaynağı Oluştur:

data_source = context.data_sources.add_pandas(
    name: str
)

Veri Kaynağından Veri Varlığı Oluştur:

data_asset = data_source.add_dataframe_asset(
    name: str
)
Great Expectations ile Veri Kalitesine Giriş

Bölüm 1: Veriye Bağlanma

Veriyi Partilerle Okuma

Veri Varlığından Parti Tanımı Oluştur:

batch_definition = data_asset. \
add_batch_definition_whole_dataframe(
  name: str
)

Parti Tanımından Parti Oluştur:

batch = batch_definition.get_batch(
  batch_parameters={"dataframe": dataframe}
)

$$

Parti DataFrame satırlarını al:

batch.head(fetch_all: bool)  

Parti DataFrame sütun listesini al:

batch.columns()
Great Expectations ile Veri Kalitesine Giriş

Bölüm 2: Beklentilerin Belirlenmesi

Beklentiler Oluşturma

Bir Beklenti Oluştur: gx.expectations.Expect...(...)

Satır sayısı Beklentisi Oluştur:

expectation = gx.expectations. \
ExpectTableRowCountToEqual(
    value: int
)

$$

Beklentiyi Doğrula:

validation_results = batch.validate(
    expect=expectation
)

Doğrulama Sonuçlarını Kontrol Et:

validation_results.describe()
validation_results.success
validation_results.result
Great Expectations ile Veri Kalitesine Giriş

Bölüm 2: Beklentilerin Belirlenmesi

Şema Beklentileri

Biçim Beklentileri:

ExpectTableRowCountToEqual(value: int)
ExpectTableRowCountToBeBetween(
    min_value: int, max_value: int
)
ExpectTableColumnCountToEqual(
    value: int
)
ExpectTableColumnCountToBeBetween(
    min_value: int, max_value: int
)

$$

Sütun adı Beklentileri:

ExpectTableColumnsToMatchSet(
    column_set: set
)
ExpectColumnToExist(column: str)
Great Expectations ile Veri Kalitesine Giriş

Bölüm 2: Beklentilerin Belirlenmesi

Beklenti Paketi Oluşturma

Beklenti Paketi Oluştur:

suite = gx.ExpectationSuite(name: str)

Pakete Beklenti Ekle:

suite.add_expectation(expectation)

Paketin Beklentilerine Eriş:

suite.expectations

$$

Beklenti Paketini Doğrula:

validation_results = batch.validate(
    expect=suite
)

Doğrulama Sonuçlarını Kontrol Et:

validation_results.success
validation_results.describe()
Great Expectations ile Veri Kalitesine Giriş

Bölüm 2: Beklentilerin Belirlenmesi

Beklenti Paketlerini Doğrulama

Veri Bağlamına Beklenti Paketi Ekle:

context.suites.add(suite)

Doğrulama Tanımı Oluştur:

validation_definition = \
gx.ValidationDefinition(
  name: str, 
  data=batch_definition, 
  suite=suite
)

$$

Doğrulamayı Çalıştır:

validation_results = \
validation_definition.run(
  batch_parameters={"dataframe": dataframe}
)

Doğrulama Sonuçlarını Kontrol Et:

validation_results.success
validation_results.describe()
Great Expectations ile Veri Kalitesine Giriş

Bölüm 3: Uygulamada GX

Doğrulama Tanımlarını Dağıtma

Doğrulama Tanımını Veri Bağlamına Ekle:

context.validation_definitions.add(
    validation_definition
)

Kontrol Noktası Oluştur:

checkpoint = gx.Checkpoint(
    name: str, 
    validation_definitions: list,
)

$$

Kontrol Noktasını Çalıştır:

checkpoint_results = checkpoint.run(
    batch_parameters={
        "dataframe": dataframe
    }
)

Kontrol Noktası Sonuçlarını Kontrol Et:

checkpoint_results.success
Great Expectations ile Veri Kalitesine Giriş

Bölüm 3: Uygulamada GX

Beklenti Paketlerini Güncelleme

Beklentiyi Kopyala:

expectation_copy = expectation.copy()
expectation_copy.id = None

Beklenti Paket içinde mi?

expectation in suite.expectations

Beklentiyi Sil:

suite.delete_expectation(expectation)

$$

Beklenti değerini güncelle:

expectation.value = new_value

Beklentideki değişiklikleri kaydet:

expectation.save()

Beklenti Paketindeki değişiklikleri kaydet:

suite.save()
Great Expectations ile Veri Kalitesine Giriş

Bölüm 3: Uygulamada GX

Bileşenleri Yönetme

Veri Bağlamına bileşen ekle:

context.data_sources.add(data_source)

context.suites.add(suite)

context.validation_definitions.add(
    validation_definition
)

context.checkpoints.add(checkpoint)

$$

Bileşen getir:

.get(name: str)

Bileşenleri listele:

.all()

Bileşen sil:

.delete(name: str)
Great Expectations ile Veri Kalitesine Giriş

Bölüm 4: Beklentiler Hakkında Her Şey

Temel Sütun Beklentileri

Satır düzeyi Beklentiler:

ExpectColumnValuesToNotBeNull(
    column: str
)
ExpectColumnValuesToBeOfType(
    column: str, type_: str
)

$$

Toplu düzey Beklentiler:

ExpectColumnDistinctValuesToEqualSet(
    column: str, value_set: set
)
ExpectColumnUniqueValueCountToBeBetween(
    column: str, 
    min_value: int, max_value: int
)
ExpectColumnValuesToBeUnique(column: str)
ExpectColumnMostCommonValueToBeInSet(
    column: str, value_set: set
)
Great Expectations ile Veri Kalitesine Giriş

Bölüm 4: Beklentiler Hakkında Her Şey

Türe Özgü Beklentiler

Sayısal Beklentiler:

ExpectColumn<METRIC>ToBeBetween(
  column: str, min_value: int, max_value: int
)
# <METRIC> içinde 
# {"Mean", "Median", "Stdev", "Sum"}
ExpectColumnValuesToBeBetween(
  column: str, min_value: int, max_value: int
)
ExpectColumnValuesToBeIncreasing(column: str)
ExpectColumnValuesToBeDecreasing(column: str)

$$

Metin Beklentileri:

ExpectColumnValueLengthsToEqual(
  column: str, value: int
)
ExpectColumnValuesToMatchRegex(
  column: str, regex: str
)
ExpectColumnValuesToMatchRegexList(
  column: str, regex_list: list
)
ExpectColumnValuesToBe{Dateutil,Json}Parseable(
  column: str
)
Great Expectations ile Veri Kalitesine Giriş

Bölüm 4: Beklentiler Hakkında Her Şey

Koşullu Beklentiler

expectation = gx.expectations.Expect...(
    expetation_parameters,
    ...,
    condition_parser='pandas',
    row_condition: str,
)
Great Expectations ile Veri Kalitesine Giriş

Son Sözler

Great Expectations ile Veri Kalitesine Giriş

Tebrikler!

Great Expectations ile Veri Kalitesine Giriş

Preparing Video For Download...