Tools van de data engineer

Introductie tot Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Databases

 

  • Sla grote hoeveelheden data op
  • Ondersteun applicaties

 

  • Andere databases voor analyses

 

Afbeelding van een database

Eenvoudige productentiteit

Introductie tot Data Engineering

Processing

  • Data opschonen
  • Data aggregeren
  • Data joinen

Afbeelding van parallelle verwerking

Introductie tot Data Engineering

Processing: een voorbeeld

df = spark.read.parquet("users.parquet")

outliers = df.filter(df["age"] > 100)

print(outliers.count())

 

Data engineer begrijpt de abstracties.

Introductie tot Data Engineering

Planning

 

  • Plan jobs op vaste intervallen
  • Los afhankelijkheden tussen jobs op

 

Diagram van schoonmaak- en join-taak

JoinProductOrder moet draaien na CleanProduct en CleanOrder

Introductie tot Data Engineering

Bestaande tools

Databases

MySQL-logo

PostgreSQL-logo

Processing

Spark-logo

Hive-logo

Planning

Airflow-logo

Oozie-logo

Tux, de Linux-pinguïn

Introductie tot Data Engineering

Een datapipeline

Afbeelding van een voorbeeld-datapipeline

Introductie tot Data Engineering

Laten we oefenen!

Introductie tot Data Engineering

Preparing Video For Download...