Data Warehouses und Data Lakes
Grundlagen von Data Engineering
Hadrien Lacroix
Content Developer
Data Lakes? Datenbanken? Data Warehouses?
Data Lakes und Data Warehouses
Data Lake
Speichert alle Rohdaten
Kann Petabytes umfassen (1 Million GBs)
Speichert alle Datenstrukturen
Kostengünstig
Schwierig zu analysieren
Erfordert einen aktuellen Datenkatalog
Von Data Scientists genutzt
Echtzeit-Analysen von Big Data
Data Warehouse
Bestimmte Daten für bestimmte Zwecke
Relativ klein
Speichert hauptsächlich strukturierte Daten
Teurer zu aktualisieren
Optimiert für die Datenanalyse
Auch von Data Analysts und Business Analysts genutzt
Schreibgeschützte Ad-hoc-Abfragen
Datenkatalog für Data Lakes
Woher stammen diese Daten?
Wo werden diese Daten verwendet?
Wer ist für die Pflege verantwortlich?
Wie oft werden diese Daten aktualisiert?
Bewährte Praxis im Sinne der Data Governance
Garantiert Reproduzierbarkeit
Kein Katalog --> Data Swamp („Datensumpf“)
Bewährte Praxis für jede Datenspeicherlösung
Verlässlichkeit
Autonomie
Skalierbarkeit
Geschwindigkeit
Datenbank vs. Data Warehouse
Datenbank:
Allgemeiner Begriff
Grob definiert als
organisierte Daten, die auf einem Computer gespeichert und abgerufen werden
Ein Data Warehouse ist eine Art von Datenbank
Zusammenfassung
Data Lakes
Data Warehouses
Datenbanken
Datenkatalog
Lass uns üben!
Grundlagen von Data Engineering
Preparing Video For Download...