Connettersi ai dati

Introduzione alla Data Quality con Great Expectations

Davina Moossazadeh

Data Scientist

Componenti

Componenti GX - Classi Python che rappresentano entità di dati e di validazione

  • Data Context ✅
  • Origini dati e Data Asset (✔)
  • Batch Definition e Batch ☐
  • Expectations ☐
  • Expectation Suite ☐
  • Validation Definition ☐
  • Checkpoint e Action ☐
  • Data Docs ☐
1 https://docs.greatexpectations.io/docs/core/introduction/gx_overview
Introduzione alla Data Quality con Great Expectations

Origini dati

Origine dati - Oggetto che indica a GX come connettersi a una specifica fonte di dati esterna

Logo SQL.

Logo Spark.

Logo Pandas.

1 https://docs.greatexpectations.io/docs/core/connect_to_data/dataframes/
Introduzione alla Data Quality con Great Expectations

Origini dati

Origine dati - Oggetto che indica a GX come connettersi a una specifica fonte di dati esterna

Logo SQL.

Logo Spark.

Logo Pandas — con un riquadro attorno.

1 https://docs.greatexpectations.io/docs/core/connect_to_data/dataframes/
Introduzione alla Data Quality con Great Expectations

Creare un'origine dati

Gestisci le origini dati con l'attributo .data_sources, usando il metodo .add_pandas():

data_source = context.data_sources.add_pandas(

name="my_pandas_datasource" )

Nota: Il parametro name in GX è diverso dal nome della variabile Python

  • Puoi assegnare valori diversi, es. "my_pandas_datasource" vs data_source
1 https://docs.greatexpectations.io/docs/core/connect_to_data/dataframes/
Introduzione alla Data Quality con Great Expectations

Data Asset

Data Asset - Una raccolta di record all'interno di un'origine dati

data_asset = data_source.add_dataframe_asset(

name="my_dataframe_asset" )
1 https://docs.greatexpectations.io/docs/core/connect_to_data/dataframes/
Introduzione alla Data Quality con Great Expectations

Cheat sheet

Crea un'origine dati dal Data Context:

data_source = context.data_sources.add_pandas(
    name: str
)

Crea un Data Asset dall'origine dati:

data_asset = data_source.add_dataframe_asset(
    name: str
)
Introduzione alla Data Quality con Great Expectations

Ayo berlatih!

Introduzione alla Data Quality con Great Expectations

Preparing Video For Download...