Datawarehouses en datalakes

Data Engineering begrijpen

Hadrien Lacroix

Content Developer

Magazijnen met prachtig uitzicht op het meer

Data Engineering begrijpen

pijplijn

Data Engineering begrijpen

Datalakes en datawarehouses

Datalake

  • Slaat alle ruwe data op
  • Kan petabytes zijn (1 miljoen GB)
  • Slaat alle datastructuren op
  • Kostenefficiënt
  • Moeilijk te analyseren
  • Vereist een actuele datacatalogus
  • Gebruikt door data scientists
  • Big data, realtime-analyse

Datawarehouse

  • Specifieke data voor specifiek gebruik
  • Relatief klein
  • Slaat vooral gestructureerde data op
  • Duurder om te updaten
  • Geoptimaliseerd voor data-analyse
  • Ook gebruikt door data- en business-analisten
  • Ad-hoc, alleen-lezen queries
Data Engineering begrijpen

Datacatalogus voor datalakes

  • Wat is de bron van deze data?
  • Waar wordt deze data gebruikt?
  • Wie is de eigenaar van de data?
  • Hoe vaak wordt deze data geüpdatet?
  • Goede praktijk voor data governance
  • Borgt reproduceerbaarheid
  • Geen catalogus --> data swamp
  • Goede praktijk voor elke datacatalogus
    • Betrouwbaarheid
    • Autonomie
    • Schaalbaarheid
    • Snelheid
Data Engineering begrijpen

Database vs. datawarehouse

  • Database:
    • Overkoepelende term
    • Vaak gedefinieerd als georganiseerde data die op een computer wordt opgeslagen en benaderd
  • Datawarehouse is een type database
Data Engineering begrijpen

Samenvatting

  • Datalakes
  • Datawarehouses
  • Databases
  • Datacatalogus
Data Engineering begrijpen

Laten we oefenen!

Data Engineering begrijpen

Preparing Video For Download...