Introduction aux pipelines ETL et ELT

ETL et ELT en Python

Jake Roach

Data Engineer

$$

Graphique sur la business intelligence, le machine learning et l’IA.

ETL et ELT en Python

Pipelines de données

... déplacent les données d’une source vers une destination, avec transformation en cours de route.

$$

Sources et destinations d’un pipeline de données.

ETL et ELT en Python

ETL

  • Extraire, transformer, charger
  • Modèle classique de pipeline
  • Sources tabulaires ou non tabulaires
  • Utilise Python avec pandas

$$

$$

$$

$$

ELT

  • Extraire, charger, transformer
  • Modèle plus récent
  • Entrepôts de données
  • Données généralement tabulaires
ETL et ELT en Python

Extraire, transformer, charger (ETL)

def load(data_frame, target_table):
    # Some custom-built Python logic to load data to SQL
    data_frame.to_sql(name=target_table, con=POSTGRES_CONNECTION)
    print(f"Loading data to the {target_table} table")

# Now, run the data pipeline
extracted_data = extract(file_name="raw_data.csv")
transformed_data = transform(data_frame=extracted_data)
load(data_frame=transformed_data, target_table="cleaned_data")
Extracting data from raw_data.csv
Transforming data to remove 'null' records
Loading data to the cleaned_data table
ETL et ELT en Python

Extraire, charger, transformer (ELT)

...
def transform(source_table, target_table):
    data_warehouse.run_sql("""
        CREATE TABLE {target_table} AS
          SELECT
              <field-name>, <field-name>, ...
          FROM {source_table};
    """)

# Similar to ETL pipelines, call the extract, load, and transform functions
extracted_data = extract(file_name="raw_data.csv")
load(data_frame=extracted_data, table_name="raw_data")
transform(source_table="raw_data", target_table="cleaned_data")
ETL et ELT en Python

Nous verrons aussi...

$$

Graphique présentant les sujets abordés plus tard dans le cours.

ETL et ELT en Python

Passons à la pratique !

ETL et ELT en Python

Preparing Video For Download...