Componenten beheren

Kennismaking met Datakwaliteit met Great Expectations

Davina Moossazadeh

Data Scientist

Componenten

GX-componenten - Python-klassen die data- en validatie-entiteiten vertegenwoordigen

  • Data Context
  • Data Sources & Data Assets
  • Batch Definitions & Batches
  • Expectations
  • Expectation Suites
  • Validation Definitions
  • Checkpoints & Actions
  • Data Docs
1 https://docs.greatexpectations.io/docs/core/introduction/gx_overview
Kennismaking met Datakwaliteit met Great Expectations

Componentbeheer in GX

Data Sources:

  • verbinden met data en bevatten Data Assets

Expectation Suites:

  • bevatten Expectations

Validation Definitions:

  • valideren Expectations tegen data

Checkpoints:

  • groeperen en automatiseren Validations

context.data_sources

$$

context.suites

$$

context.validation_definitions

$$

context.checkpoints

Kennismaking met Datakwaliteit met Great Expectations

Componenten toevoegen

Expectation Suite:

suite = context.suites.add(suite)

Validation Definition:

validation_definition = context.validation_definitions.add(validation_definition)

Checkpoint:

checkpoint = context.checkpoints.add(
    checkpoint=checkpoint
)
Kennismaking met Datakwaliteit met Great Expectations

Een Data Source toevoegen

data_source = context.data_sources.add_<TYPE_NAME>()

1 https://docs.greatexpectations.io/docs/core/connect_to_data/
Kennismaking met Datakwaliteit met Great Expectations

Een pandas Data Source toevoegen

Gebruik .add_pandas() om snel een Data Source voor pandas DataFrames in te stellen:

data_source = context.data_sources.add_pandas(
    name="my_pandas_datasource"
)
Kennismaking met Datakwaliteit met Great Expectations

Componenten ophalen

Haal componenten op met .get() door hun naam te geven:

context.<COMPONENT>s.get(

name: str )
data_source = context.data_sources.get(

name="my_pandas_datasource" )
print(data_source)
id: 46c91f1b-1db9-4351-b5dd-83e038c0f511
name: 'my_pandas_datasource'
type: pandas
Kennismaking met Datakwaliteit met Great Expectations

Componenten ophalen

Data Sources:

context.data_sources.get(
    name="my_pandas_datasource"
)

Expectation Suites:

context.suites.get(
    name="my_suite"
)

Validation Definitions:

context.validation_definitions.get(
    name="my_validation_definition"
)

Checkpoints:

context.checkpoints.get(
    name="my_checkpoint"
)
Kennismaking met Datakwaliteit met Great Expectations

Componenten weergeven

Gebruik .all() om alle componenten in je Data Context te tonen, met namen en metadata:

context.<COMPONENT>s.all()
data_sources = context.data_sources.all()

print(data_sources)
{
    'my_pandas_datasource': PandasDatasource(
        type='pandas',
        name='my_pandas_datasource', 
        id=UUID('c22b16f7-6945-400e-932f-026cbd63b112'), 
        assets=[]
    )
}
Kennismaking met Datakwaliteit met Great Expectations

Componenten weergeven

Data Sources:

context.data_sources.all()

Expectation Suites:

context.suites.all()

Validation Definitions:

context.validation_definitions.all()

Checkpoints:

context.checkpoints.all()
Kennismaking met Datakwaliteit met Great Expectations

Componenten verwijderen

Gebruik .delete() om componenten te verwijderen door hun naam te geven:

context.<COMPONENT>s.delete(

name: str )
context.data_sources.delete(
    name="my_pandas_datasource"
)

print(context.data_sources.all())
{}
Kennismaking met Datakwaliteit met Great Expectations

Componenten verwijderen

Data Sources:

context.data_sources.delete(
    name="my_pandas_datasource"
)

Expectation Suites:

context.suites.delete(
    name="my_suite"
)

Validation Definitions:

context.validation_definitions.delete(
    name="my_validation_definition"
)

Checkpoints:

context.checkpoints.delete(
    name="my_checkpoint"
)
Kennismaking met Datakwaliteit met Great Expectations

Spiekbrief

Voeg een component toe aan Data Context:

context.data_sources.add(data_source)

context.suites.add(suite)

context.validation_definitions.add(
    validation_definition
)

context.checkpoints.add(checkpoint)

Een component ophalen:

.get(name: str)

Componenten weergeven:

.all()

Een component verwijderen:

.delete(name: str)
Kennismaking met Datakwaliteit met Great Expectations

Laten we oefenen!

Kennismaking met Datakwaliteit met Great Expectations

Preparing Video For Download...