Verileri Toplu Olarak Okuma

Great Expectations ile Veri Kalitesine Giriş

Davina Moossazadeh

Data Scientist

Kaggle Hava Durumu Verisi

Aşağıdaki sütunlara sahip Kaggle Weather Data içeren bir pandas DataFrame'i: "Location", "Date_Time", "Temperature_C", "Humidity_pct", "Precipitation_mm" ve "Wind_Speed_kmh". DataFrame 87.118 satır içerir.

Great Expectations ile Veri Kalitesine Giriş

Batch Tanımları

Batch Definition — Bir Veri Varlığının test için nasıl bölüneceğine dair yapılandırma

batch_definition = data_asset.add_batch_definition_whole_dataframe(

name="my_batch_definition" )
print(batch_definition)
id='69e2a81d-1c28-4d1a-b66e-52cdc1198266' 
name='my_batch_definition' 
partitioner=None
1 https://docs.greatexpectations.io/docs/core/connect_to_data/dataframes/
Great Expectations ile Veri Kalitesine Giriş

Batch'ler

Batch — Doğrulamaların çalıştırılabildiği kayıt grubu

batch = batch_definition.get_batch(

batch_parameters={"dataframe": dataframe} )
Great Expectations ile Veri Kalitesine Giriş

Batch'ler

data_source_other.jpg

data_source_pandas.jpg

Great Expectations ile Veri Kalitesine Giriş

Batch nesnesi

.head()'i pandas'taki gibi kullanabiliriz:

print(batch.head())

Ekran görüntüsü 2024-07-16 11.49.00.png

1 Tablo şu kaynaktan uyarlanmıştır: https://www.kaggle.com/datasets/prasad22/weather-data
Great Expectations ile Veri Kalitesine Giriş

Batch nesnesi

print(batch.head(fetch_all=True))

Ekran görüntüsü 2024-07-22 14.02.00.png

Great Expectations ile Veri Kalitesine Giriş

Batch nesnesi

.columns() tüm DataFrame sütunlarını gösterir (() parantezine dikkat)

print(batch.columns())
['Location',
 'Date_Time',
 'Temperature_C',
 'Humidity_pct',
 'Precipitation_mm',
 'Wind_Speed_kmh']
Great Expectations ile Veri Kalitesine Giriş

Kısa rehber

Veri Varlığından Batch Tanımı oluşturun:

batch_definition = data_asset. \
add_batch_definition_whole_dataframe(
  name: str
)

Batch Tanımından Batch oluşturun:

batch = batch_definition.get_batch(
  batch_parameters={"dataframe": dataframe}
)

Batch DataFrame satırlarını alın:

batch.head(fetch_all: bool)  

Batch DataFrame sütun listesini alın:

batch.columns()
Great Expectations ile Veri Kalitesine Giriş

Hadi pratik yapalım!

Great Expectations ile Veri Kalitesine Giriş

Preparing Video For Download...