Data Warehouses und Data Lakes

Grundlagen von Data Engineering

Hadrien Lacroix

Content Developer

Data Lakes? Datenbanken? Data Warehouses?

Grundlagen von Data Engineering

pipeline

Grundlagen von Data Engineering

Data Lakes und Data Warehouses

Data Lake

  • Speichert alle Rohdaten
  • Kann Petabytes umfassen (1 Million GBs)
  • Speichert alle Datenstrukturen
  • Kostengünstig
  • Schwierig zu analysieren
  • Erfordert einen aktuellen Datenkatalog
  • Von Data Scientists genutzt
  • Echtzeit-Analysen von Big Data

Data Warehouse

  • Bestimmte Daten für bestimmte Zwecke
  • Relativ klein
  • Speichert hauptsächlich strukturierte Daten
  • Teurer zu aktualisieren
  • Optimiert für die Datenanalyse
  • Auch von Data Analysts und Business Analysts genutzt
  • Schreibgeschützte Ad-hoc-Abfragen
Grundlagen von Data Engineering

Datenkatalog für Data Lakes

  • Woher stammen diese Daten?
  • Wo werden diese Daten verwendet?
  • Wer ist für die Pflege verantwortlich?
  • Wie oft werden diese Daten aktualisiert?
  • Bewährte Praxis im Sinne der Data Governance
  • Garantiert Reproduzierbarkeit
  • Kein Katalog --> Data Swamp („Datensumpf“)
  • Bewährte Praxis für jede Datenspeicherlösung
    • Verlässlichkeit
    • Autonomie
    • Skalierbarkeit
    • Geschwindigkeit
Grundlagen von Data Engineering

Datenbank vs. Data Warehouse

  • Datenbank:
    • Allgemeiner Begriff
    • Grob definiert als organisierte Daten, die auf einem Computer gespeichert und abgerufen werden
  • Ein Data Warehouse ist eine Art von Datenbank
Grundlagen von Data Engineering

Zusammenfassung

  • Data Lakes
  • Data Warehouses
  • Datenbanken
  • Datenkatalog
Grundlagen von Data Engineering

Lass uns üben!

Grundlagen von Data Engineering

Preparing Video For Download...