Was ist der Unterschied zwischen Data Warehouses und Data Lakes?

Konzepte des Data Warehousing

Aaren Stubberfield

Data Scientist

Datenbank

  • Strukturierte Daten in Zeilen und Spalten
  • Transaktionale Datenbanken speichern Transaktionen.

Drei Datenbanktabellen

Konzepte des Data Warehousing

Data Warehouse

  • Daten sammeln, zusammenführen und für die Analyse bereitstellen
  • Viele Input-Datenquellen
  • Speichert strukturierte Daten
  • Komplex zu ändern
    • Auswirkungen auf vor- und nachgelagerte Bereiche müssen berücksichtigt werden.
  • Normalerweise größer als 100 GB

Drei Datenbanktabellen, die in ein Data Warehouse einfließen

Konzepte des Data Warehousing

Warum ein Data Warehouse?

  • Schnelle Abfragen bei großen Datenmengen
  • Vermeidet es, transaktionale Datenbanken zu verlangsamen.

Jemand, der genervt ist, weil die Daten so langsam sind.

Konzepte des Data Warehousing

Data Marts

  • relationale Datenbank für Analysen
  • Die Daten sind auf einen Themenbereich konzentriert.
  • Wenige Input-Datenquellen
  • Normalerweise kleiner als 100 GB

Data Warehouse, das einen Data Mart versorgt

Konzepte des Data Warehousing

Data Lake

  • Zentraler Datenspeicher der Organisation
    • Enthält Daten aus vielen Abteilungen
    • Viele Input-Datenquellen
    • Normalerweise größer als 100 GB
  • Speichert strukturierte und unstrukturierte Daten
    • Beispiele: Videos, Audiodateien und Dokumente

Eine Audio- und Videodatei zusammen mit einer Datenbank, die einen Data Lake speist

Konzepte des Data Warehousing

Data Lake

  • Änderungen sind einfacher vorzunehmen
    • Weniger Auswirkungen auf andere Bereiche
  • Der Grund, warum Daten gespeichert werden, ist womöglich nicht ersichtlich.
    • Weniger organisiert

eine Audio- und Videodatei zusammen mit einer Datenbank, die einen Data Lake speist

Konzepte des Data Warehousing

Zusammenfassung

Merkmal Data Warehouse Data Mart Data Lake
Datenstruktur Strukturiert Strukturiert Strukturiert & Unstrukturiert
Komplexität etwas zu verändern Komplex Komplex Weniger kompliziert
Zweck der Daten Bekannt Bekannt Möglicherweise nicht bekannt
Abdeckung der Abteilungen Deckt viele ab Deckt nur eine ab Deckt viele ab
Datenquellen Viele Quellsysteme Wenige Quellen Viele Quellsysteme
Typische Größe >100 GB <100 GB >100 GB
Konzepte des Data Warehousing

Lass uns üben!

Konzepte des Data Warehousing

Preparing Video For Download...