Datenverarbeitung

Grundlagen von Data Engineering

Hadrien Lacroix

Content Developer at DataCamp

Datenpipeline

Grundlagen von Data Engineering

Daten in den Data Lake verschieben

Grundlagen von Data Engineering

Daten in den Data Lake verschieben

Grundlagen von Data Engineering

Prüfung auf beschädigte Daten

Grundlagen von Data Engineering

Allgemeine Definition

  • Datenverarbeitung: Umwandlung von Rohdaten in aussagekräftige Informationen
Grundlagen von Data Engineering

Wert der Datenverarbeitung

Konzeptuell

  • Unerwünschte Daten entfernen
  • Speicher-, Prozess- und Netzwerkkosten optimieren
  • Daten von einem Typ in einen anderen umwandeln

Bei Spotflix

  • Kein langfristiger Bedarf für die Prüfung von Merkmalsdaten
  • So große Dateien zu speichern und zu streamen ist teuer
Grundlagen von Data Engineering

Datenpipeline

Grundlagen von Data Engineering

Datenpipeline

Grundlagen von Data Engineering

Datenpipeline

Grundlagen von Data Engineering

Wert der Datenverarbeitung

Konzeptuell

  • Unerwünschte Daten entfernen
  • Speicherplatz sparen
  • Daten von einem Typ in einen anderen umwandeln
  • Daten organisieren
  • An ein Schema/eine Struktur anpassen
  • Produktivität steigern

Bei Spotflix

  • Kein verlustfreies Format erforderlich
  • So große Dateien zu speichern ist teuer
  • Konvertieren von Songs von .flac in .ogg
  • Daten aus dem Data Lake in Data Warehouses reorganisieren
  • Beispiel Personaltabelle
  • Data Scientists befähigen
Grundlagen von Data Engineering

So verarbeiten Data Engineers Daten

  • Aufgaben zur Manipulation, Bereinigung und Aufbereitung von Daten,
    • die automatisiert werden können,
    • die immer erledigt werden müssen.
  • Speichern von Daten in strukturierten Datenbank
  • Erstellen von Ansichten
  • Optimieren der Leistung der Datenbank
  • Ablehnen beschädigter Musikdateien
  • Umgang mit fehlenden Metadaten
  • Separate Tabellen für Artists und Alben ...
  • ... aber kombinierte Ansicht bereitstellen
  • Indizierung
Grundlagen von Data Engineering

1 Den Unterschied zwischen Batch und Stream erklären wir in der nächsten Lektion!
Grundlagen von Data Engineering

Apache Spark Logo

Grundlagen von Data Engineering

Zusammenfassung

  • Was ist Datenverarbeitung?
  • Wozu brauchen wir sie?
  • Worin besteht sie?
  • Wie verarbeiten wir bei Spotflix Daten ?
Grundlagen von Data Engineering

Lass uns üben!

Grundlagen von Data Engineering

Preparing Video For Download...