Introdução à Engenharia de Dados
Vincent Vankrunkelsven
Data Engineer @ DataCamp



df = spark.read.parquet("users.parquet")
outliers = df.filter(df["age"] > 100)
print(outliers.count())
O engenheiro de dados entende as abstrações.

JoinProductOrder precisa rodar depois de CleanProduct e CleanOrder
Bancos de dados


Processamento

Orquestração




Introdução à Engenharia de Dados