Parallelverarbeitung

Grundlagen von Data Engineering

Hadrien Lacroix

Content Developer at DataCamp

Parallelverarbeitung

  • Grundlage moderner Datenverarbeitungstools
  • Erforderlich:
    • Wegen des Speichers
    • Für Rechenleistung
  • Funktionsweise:
    • Aufteilen von Aufgaben in mehrere Unteraufgaben
    • Verteilen der Unteraufgaben auf mehrere Computer
Grundlagen von Data Engineering

1000 T-Shirts

Grundlagen von Data Engineering

Senior-Verkaufspersonal

Grundlagen von Data Engineering

Junior-Verkaufspersonal

1 Emojis von Mohamed Hassan
Grundlagen von Data Engineering

eine Person nach der anderen

Grundlagen von Data Engineering

T-Shirt-Batching

Grundlagen von Data Engineering

Junior-Verkaufspersonal, das in einer Stunde und fünfzehn Minuten fertig ist

Grundlagen von Data Engineering

leitende Verkaufsassistentin, die in zwei Stunden und dreizehn Minuten fertig sind

Grundlagen von Data Engineering

Vorteile und Risiken der Parallelverarbeitung

  • Beschäftigte = Verarbeitungseinheiten
  • Vorteile
    • Zusätzliche Rechenleistung
    • Geringerer Speicherbedarf
  • Nachteile
    • Verschieben von Daten verursacht Kosten
    • Kommunikationszeit
Grundlagen von Data Engineering

Vergleich der Leistung von Junior- und Senior-Verkaufspersonal

Grundlagen von Data Engineering

es dauert zehn Minuten, die tausend T-Shirts an die vier Junior-Beschäftigen zu verteilen

Grundlagen von Data Engineering

es dauert fünf Minuten, um die T-Shirts der vier Junior-Beschäftigten auf einen Haufen zu sammeln

Grundlagen von Data Engineering

Datenpipeline

Grundlagen von Data Engineering

Datenpipeline

Grundlagen von Data Engineering

Zusammenfassung

  • Vorteile und Risiken
  • Umsetzung bei Spotflix
Grundlagen von Data Engineering

Lass uns üben!

Grundlagen von Data Engineering

Preparing Video For Download...