Data in batches lezen

Kennismaking met Datakwaliteit met Great Expectations

Davina Moossazadeh

Data Scientist

Kaggle Weather Data

Een pandas-DataFrame met de Kaggle Weather Data, met de kolommen: "Location", "Date_Time", "Temperature_C", "Humidity_pct", "Precipitation_mm" en "Wind_Speed_kmh". Het DataFrame heeft 87.118 rijen.

Kennismaking met Datakwaliteit met Great Expectations

Batch-definities

Batch Definition - Een configuratie voor hoe een Data Asset moet worden opgedeeld voor tests

batch_definition = data_asset.add_batch_definition_whole_dataframe(

name="my_batch_definition" )
print(batch_definition)
id='69e2a81d-1c28-4d1a-b66e-52cdc1198266' 
name='my_batch_definition' 
partitioner=None
1 https://docs.greatexpectations.io/docs/core/connect_to_data/dataframes/
Kennismaking met Datakwaliteit met Great Expectations

Batches

Batch - Een groep records waarop je validaties kunt uitvoeren

batch = batch_definition.get_batch(

batch_parameters={"dataframe": dataframe} )
Kennismaking met Datakwaliteit met Great Expectations

Batches

data_source_other.jpg

data_source_pandas.jpg

Kennismaking met Datakwaliteit met Great Expectations

Het Batch-object

We kunnen .head() gebruiken zoals in pandas:

print(batch.head())

Screenshot 2024-07-16 at 11.49.00.png

1 Tabel aangepast van https://www.kaggle.com/datasets/prasad22/weather-data
Kennismaking met Datakwaliteit met Great Expectations

Het Batch-object

print(batch.head(fetch_all=True))

Screenshot 2024-07-22 at 14.02.00.png

Kennismaking met Datakwaliteit met Great Expectations

Het Batch-object

.columns() toont alle DataFrame-kolommen (let op de ())

print(batch.columns())
['Location',
 'Date_Time',
 'Temperature_C',
 'Humidity_pct',
 'Precipitation_mm',
 'Wind_Speed_kmh']
Kennismaking met Datakwaliteit met Great Expectations

Spiekbrief

Maak een Batch Definition van een Data Asset:

batch_definition = data_asset. \
add_batch_definition_whole_dataframe(
  name: str
)

Maak een Batch van een Batch Definition:

batch = batch_definition.get_batch(
  batch_parameters={"dataframe": dataframe}
)

Haal DataFrame-rijen van een Batch op:

batch.head(fetch_all: bool)  

Haal de kolomlijst van een Batch-DataFrame op:

batch.columns()
Kennismaking met Datakwaliteit met Great Expectations

Laten we oefenen!

Kennismaking met Datakwaliteit met Great Expectations

Preparing Video For Download...