Introducción a la ingeniería de datos
Vincent Vankrunkelsven
Data Engineer @ DataCamp
Analítica

Aplicaciones

Analítica

Aplicaciones

Bases de datos de procesamiento masivo en paralelo

Carga desde archivo a formato columnar
# Método .to_parquet() de Pandas
df.to_parquet("./s3://path/to/bucket/customer.parquet")
# Método .write.parquet() de PySpark
df.write.parquet("./s3://path/to/bucket/customer.parquet")
COPY customer
FROM 's3://path/to/bucket/customer.parquet'
FORMAT as parquet
...
pandas.to_sql()
# Transformación de datos
recommendations = transform_find_recommendatins(ratings_df)
# Cargar en base de datos PostgreSQL
recommendations.to_sql("recommendations",
db_engine,
schema="store",
if_exists="replace")
Introducción a la ingeniería de datos