ETL y ELT en Python
Jake Roach
Data Engineer
Hay que probar bien los pipelines de datos
$$
Validar pipelines reduce el mantenimiento tras el despliegue
Herramientas y técnicas para probar pipelines


Pruebas end-to-end
# Extrae, transforma y carga datos como parte de un pipeline
...
# Consulta los datos disponibles en una base Postgres
loaded_data = pd.read_sql("SELECT * FROM clean_stock_data", con=db_engine)
print(loaded_data.shape)
(6438, 4)
print(loaded_data.head())
timestamps volume open close
1997-05-15 13:30:00 1443120000 0.121875 0.097917
1997-05-16 13:30:00 294000000 0.098438 0.086458
1997-05-19 13:30:00 122136000 0.088021 0.085417
# Extrae, transforma y carga datos como parte de un pipeline
...
# Consulta los datos disponibles en una base Postgres
loaded_data = pd.read_sql("SELECT * FROM clean_stock_data", con=db_engine)
# Compara ambos DataFrames.
print(clean_stock_data.equals(loaded_data))
True
ETL y ELT en Python