Die Datenpipeline

Grundlagen von Data Engineering

Hadrien Lacroix

Content Developer at DataCamp

Wenn Daten das neue Öl sind ...

data is the new oil - economist cover

1 The Economist, 06.05.2017, von David Parkins
Grundlagen von Data Engineering

Ölquelle

Grundlagen von Data Engineering

Rohrleitungen von der Ölquelle

Grundlagen von Data Engineering

Destillieren

Grundlagen von Data Engineering

Rückstand

Grundlagen von Data Engineering

Schweröl

Grundlagen von Data Engineering

Diesel

Grundlagen von Data Engineering

Kerosin

Grundlagen von Data Engineering

Naphtha

Grundlagen von Data Engineering

Benzin

Grundlagen von Data Engineering

Kerosin wird direkt zum Flughafen geliefert

Grundlagen von Data Engineering

Benzin wird an Speicheranlagen geliefert

Grundlagen von Data Engineering

Benzin wird von der Speicheranlage an die Tankstellen geliefert

Grundlagen von Data Engineering

Naphtha erfährt chemische Umwandlungen

Grundlagen von Data Engineering

Plastik wird an die Fabrik geschickt

Grundlagen von Data Engineering

Zurück zum Data Engineering

  • Erfassen
  • Verarbeiten
  • Speichern
  • Braucht Pipelines
  • Automatisiert den Fluss von einer Station zur nächsten
  • Stellt aktuelle, genaue und relevante Daten bereit

$$

data-engineer

Grundlagen von Data Engineering

Mobil

Grundlagen von Data Engineering

Computer

Grundlagen von Data Engineering

Website

Grundlagen von Data Engineering

Pipes aus der mobilen App, der Desktop-App und der Website

Grundlagen von Data Engineering

Daten-Rack

Grundlagen von Data Engineering

Artists

Grundlagen von Data Engineering

Alben

Grundlagen von Data Engineering

Tracks

Grundlagen von Data Engineering

Playlists

Grundlagen von Data Engineering

Kunden

Grundlagen von Data Engineering

Personal

Grundlagen von Data Engineering

Artists-Datenbank

Grundlagen von Data Engineering

Verkaufspersonal

Grundlagen von Data Engineering

technisches Personal

Grundlagen von Data Engineering

Personal unterstützen

Grundlagen von Data Engineering

Verkaufspersonal in den USA

Grundlagen von Data Engineering

Verkaufspersonal Belgien

Grundlagen von Data Engineering

Verkaufspersonal Frankreich

Grundlagen von Data Engineering

Tracks prüfen und bereinigen

Grundlagen von Data Engineering

bereinigte Tracksin die Datenbank schreiben

Grundlagen von Data Engineering

Grundlagen von Data Engineering

Grundlagen von Data Engineering

Grundlagen von Data Engineering

Grundlagen von Data Engineering

Grundlagen von Data Engineering

Grundlagen von Data Engineering

Grundlagen von Data Engineering

Grundlagen von Data Engineering

Grundlagen von Data Engineering

Oprah vertreibt Pipelines

Grundlagen von Data Engineering

Oprah vertreibt Pipelines

Grundlagen von Data Engineering

Oprah vertreibt Pipelines

Grundlagen von Data Engineering

Datenpipelines sorgen für einen effizienten Datenfluss

Automatisieren

  • Extrahieren
  • Transformieren
  • Kombinieren
  • Validieren
  • Laden

Reduzieren

  • Manuelle Eingriffe
  • Fehler
  • Zeit für Datenfluss
Grundlagen von Data Engineering

ETL und Datenpipelines

ETL

  • Beliebtes Framework für die Gestaltung von Datenpipelines
  • 1) Daten extrahieren
  • 2) Extrahierte Daten transformieren
  • 3) Transformierte Daten in eine andere Datenbank laden

Daten-Pipelines

  • Daten von einem System in ein anderes verschieben
  • Kann ETL folgen
  • Daten könnten nicht transformiert werden
  • Daten können direkt in Anwendung geladen werden
Grundlagen von Data Engineering

Zusammenfassung

  • Was eine Datenpipeline ist
  • Was sie tut
  • Warum sie wichtig ist
  • Wie Datenpipelines bei Spotflix implementiert werden
  • Was ETL ist und was seine Feinheiten sind
Grundlagen von Data Engineering

Lass uns üben!

Grundlagen von Data Engineering

Preparing Video For Download...