ETL und ELT mit Python
Jake Roach
Data Engineer
Datenpipelines sollten gründlich getestet werden
$$
Validierung reduziert Wartungsaufwand nach dem Deployment
Tools und Techniken zum Testen von Datenpipelines


End-to-End‑Tests
# Daten im Rahmen einer Pipeline extrahieren, transformieren und laden
...
# Die in einer Postgres‑Datenbank verfügbaren Daten ansehen
loaded_data = pd.read_sql("SELECT * FROM clean_stock_data", con=db_engine)
print(loaded_data.shape)
(6438, 4)
print(loaded_data.head())
timestamps volume open close
1997-05-15 13:30:00 1443120000 0.121875 0.097917
1997-05-16 13:30:00 294000000 0.098438 0.086458
1997-05-19 13:30:00 122136000 0.088021 0.085417
# Daten im Rahmen einer Pipeline extrahieren, transformieren und laden
...
# Die in einer Postgres‑Datenbank verfügbaren Daten ansehen
loaded_data = pd.read_sql("SELECT * FROM clean_stock_data", con=db_engine)
# Die beiden DataFrames vergleichen.
print(clean_stock_data.equals(loaded_data))
True
ETL und ELT mit Python