Introduzione alla Data Quality con Great Expectations
Davina Moossazadeh
Data Scientist

Batch Definition - Configurazione su come dividere un Data Asset per i test
batch_definition = data_asset.add_batch_definition_whole_dataframe(name="my_batch_definition" )print(batch_definition)
id='69e2a81d-1c28-4d1a-b66e-52cdc1198266'
name='my_batch_definition'
partitioner=None
Batch - Un gruppo di record su cui eseguire le validazioni
batch = batch_definition.get_batch(batch_parameters={"dataframe": dataframe} )


Possiamo usare .head() come in pandas:
print(batch.head())

print(batch.head(fetch_all=True))

.columns() mostra tutte le colonne del DataFrame (nota le ())
print(batch.columns())
['Location',
'Date_Time',
'Temperature_C',
'Humidity_pct',
'Precipitation_mm',
'Wind_Speed_kmh']
Crea una Batch Definition da un Data Asset:
batch_definition = data_asset. \
add_batch_definition_whole_dataframe(
name: str
)
Crea un Batch da una Batch Definition:
batch = batch_definition.get_batch(
batch_parameters={"dataframe": dataframe}
)
Ottieni le righe del DataFrame del Batch:
batch.head(fetch_all: bool)
Ottieni l'elenco delle colonne del DataFrame del Batch:
batch.columns()
Introduzione alla Data Quality con Great Expectations