Leggere i dati a batch

Introduzione alla Data Quality con Great Expectations

Davina Moossazadeh

Data Scientist

Dati meteo Kaggle

Un DataFrame pandas con i dati meteo di Kaggle, con le colonne: "Location", "Date_Time", "Temperature_C", "Humidity_pct", "Precipitation_mm" e "Wind_Speed_kmh". Il DataFrame ha 87.118 righe.

Introduzione alla Data Quality con Great Expectations

Batch Definition

Batch Definition - Configurazione su come dividere un Data Asset per i test

batch_definition = data_asset.add_batch_definition_whole_dataframe(

name="my_batch_definition" )
print(batch_definition)
id='69e2a81d-1c28-4d1a-b66e-52cdc1198266' 
name='my_batch_definition' 
partitioner=None
1 https://docs.greatexpectations.io/docs/core/connect_to_data/dataframes/
Introduzione alla Data Quality con Great Expectations

Batch

Batch - Un gruppo di record su cui eseguire le validazioni

batch = batch_definition.get_batch(

batch_parameters={"dataframe": dataframe} )
Introduzione alla Data Quality con Great Expectations

Batch

data_source_other.jpg

data_source_pandas.jpg

Introduzione alla Data Quality con Great Expectations

L'oggetto Batch

Possiamo usare .head() come in pandas:

print(batch.head())

Schermata 2024-07-16 alle 11.49.00.png

1 Tabella adattata da https://www.kaggle.com/datasets/prasad22/weather-data
Introduzione alla Data Quality con Great Expectations

L'oggetto Batch

print(batch.head(fetch_all=True))

Schermata 2024-07-22 alle 14.02.00.png

Introduzione alla Data Quality con Great Expectations

L'oggetto Batch

.columns() mostra tutte le colonne del DataFrame (nota le ())

print(batch.columns())
['Location',
 'Date_Time',
 'Temperature_C',
 'Humidity_pct',
 'Precipitation_mm',
 'Wind_Speed_kmh']
Introduzione alla Data Quality con Great Expectations

Promemoria

Crea una Batch Definition da un Data Asset:

batch_definition = data_asset. \
add_batch_definition_whole_dataframe(
  name: str
)

Crea un Batch da una Batch Definition:

batch = batch_definition.get_batch(
  batch_parameters={"dataframe": dataframe}
)

Ottieni le righe del DataFrame del Batch:

batch.head(fetch_all: bool)  

Ottieni l'elenco delle colonne del DataFrame del Batch:

batch.columns()
Introduzione alla Data Quality con Great Expectations

Ayo berlatih!

Introduzione alla Data Quality con Great Expectations

Preparing Video For Download...