Tools des Dateningenieurs

Einführung in das Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Datenbanken

 

  • Speichern große Datenmengen
  • Unterstützen Anwendungen

 

  • Andere Datenbanken werden für Analysen genutzt

 

Bild einer Datenbank

Einfache Produkteinheit

Einführung in das Data Engineering

Verarbeitung

  • Daten bereinigen
  • Daten zusammenfassen
  • Daten zusammenführen

Bild, das die parallele Verarbeitung darstellt

Einführung in das Data Engineering

Verarbeitung: ein Beispiel

df = spark.read.parquet("users.parquet")

outliers = df.filter(df["age"] > 100)

print(outliers.count())

 

Dateningenieure verstehen die Abstraktionen.

Einführung in das Data Engineering

Datenplanung

 

  • Planung von Aufträgen mit bestimmten Intervallen
  • Lösung von Abhängigkeitsanforderungen von Aufträgen

 

Darstellung der Reinigungs- und Verbindungsarbeiten

JoinProductOrder muss nach CleanProduct und CleanOrder laufen

Einführung in das Data Engineering

Bereits vorhandene Tools

Datenbanken

MySQL-Logo

PostgreSQL-Logo

Verarbeitung

Spark-Logo

Hive-Logo

Datenplanung

Airflow-Logo

Oozie-Logo

Tux, der Linux-Pinguin

Einführung in das Data Engineering

Ein Datenverarbeitungsworkflow

Ein Bild eines Beispiel-Datenworkflows

Einführung in das Data Engineering

Lass uns üben!

Einführung in das Data Engineering

Preparing Video For Download...