Daten aus strukturierten Quellen extrahieren

ETL und ELT mit Python

Jake Roach

Data Engineer

Quellsysteme

In diesem Kurs:

  • CSV-Dateien
  • Parquet-Dateien
  • JSON-Dateien
  • SQL-Datenbanken

Daten kommen auch aus:

  • APIs
  • Data Lakes
  • Data Warehouses
  • Web-Scraping
  • … und vielen weiteren!
ETL und ELT mit Python

Parquet-Dateien einlesen

Parquet-Dateien:

  • Open-Source, spaltenorientiertes Format für effiziente Speicherung und Abfrage
  • Ähnlich wie mit CSV arbeiten
import pandas as pd

# Read the parquet file into memory
raw_stock_data = pd.read_parquet("raw_stock_data.parquet", engine="fastparquet")
1 https://www.databricks.com/glossary/what-is-parquet
ETL und ELT mit Python

Verbindung zu SQL-Datenbanken

  • Daten können aus SQL-Datenbanken in ein pandas-DataFrame geladen werden
  • Erfordert eine Connection-URI, um eine Engine zu erstellen und zu verbinden
import sqlalchemy
import pandas as pd

# Connection URI: schema_identifier://username:password@host:port/db
connection_uri = "postgresql+psycopg2://repl:password@localhost:5432/market"
db_engine = sqlalchemy.create_engine(connection_uri)
# Query the SQL database
raw_stock_data = pd.read_sql("SELECT * FROM raw_stock_data LIMIT 10", db_engine)
ETL und ELT mit Python

Modularität

Logik in Funktionen kapseln

  • Erhöht die Lesbarkeit in Pipelines
  • Befolgt das Prinzip „Don’t repeat yourself“
  • Beschleunigt die Fehlersuche
def extract_from_sql(connection_uri, query):
    # Create an engine, query data and return DataFrame
    db_engine = sqlalchemy.create_engine(connection_uri)
    return pd.read_sql(query, db_engine)

extract_from_sql("postgresql+psycopg2://.../market", "SELECT ... LIMIT 10;")
ETL und ELT mit Python

Lass uns üben!

ETL und ELT mit Python

Preparing Video For Download...