Wat is het verschil tussen datawarehouses en datalakes?

Concepten van datawarehousing

Aaren Stubberfield

Data Scientist

Database

  • Gestructureerde data in rijen en kolommen
  • Transactionele databases slaan transacties op

Drie databasetabellen

Concepten van datawarehousing

Datawarehouse

  • Verzamelen, integreren en beschikbaar maken voor analyse
  • Veel databronnen
  • Slaat gestructureerde data op
  • Wijzigen is complex
    • Opwaartse en neerwaartse effecten meenemen
  • Meestal >100 GB

Drie databasetabellen die een datawarehouse voeden

Concepten van datawarehousing

Waarom het datawarehouse?

  • Hoe snel een query draait op veel data
  • Voorkom vertraging van transactionele database

Persoon gefrustreerd door trage data

Concepten van datawarehousing

Datamarts

  • Een relationele database voor analyse
  • Data rond één domein
  • Weinig brondatasets
  • Meestal <100 GB

Datawarehouse voedt een datamart

Concepten van datawarehousing

Datalake

  • Gehele organisatiebrede opslag
    • Bevat data van veel afdelingen
    • Veel databronnen
    • Meestal >100 GB
  • Slaat gestructureerde en ongestructureerde data op
    • Voorbeelden: video, audio en documenten

Een audio- en videobestand plus database die een datalake voeden

Concepten van datawarehousing

Datalake

  • Minder complex om te wijzigen
    • Minder opwaartse en neerwaartse effecten
  • Doel van opslag kan onbekend zijn
    • Minder georganiseerd

een audio- en videobestand plus database die een datalake voeden

Concepten van datawarehousing

Samenvatting

Feature Datawarehouse Datamart Datalake
Datastructuur Gestructureerd Gestructureerd Gestructureerd & ongestructureerd
Complexiteit van wijzigingen Complex Complex Minder complex
Doel van data Bekend Bekend Kan onbekend zijn
Dekking afdelingen Veel Eén Veel
Databronnen Veel bronsystemen Weinig bronnen Veel bronsystemen
Typische grootte >100 GB <100 GB >100 GB
Concepten van datawarehousing

Laten we oefenen!

Concepten van datawarehousing

Preparing Video For Download...