Tools des Dateningenieurs

Einführung in das Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Datenbanken

Bild einer Datenbank

Einfache Produkteinheit

Bild, das die parallele Verarbeitung darstellt

df = spark.read.parquet("users.parquet")

outliers = df.filter(df["age"] > 100)

print(outliers.count())

Dateningenieure verstehen die Abstraktionen.

Darstellung der Reinigungs- und Verbindungsarbeiten

JoinProductOrder muss nach CleanProduct und CleanOrder laufen

Datenbanken

MySQL-Logo

PostgreSQL-Logo

Verarbeitung

Spark-Logo

Hive-Logo

Datenplanung

Airflow-Logo

Oozie-Logo

Tux, der Linux-Pinguin

Ein Bild eines Beispiel-Datenworkflows

Einführung in das Data Engineering