Rij- vs. kolomopslag

Concepten van datawarehousing

Aaren Stubberfield

Data Scientist

Waarom is dit belangrijk?

  • Query's optimaliseren voor snelheid
  • Kolomopslag voor datawarehousetabellen is het best voor analytische workloads
Concepten van datawarehousing

Basis van computeropslag

  • Computers slaan data op in blokken.
  • Lezen de benodigde blokken bij het ophalen van data.
  • Minder blokken lezen versnelt het proces.

Symbolische afbeelding van een harde schijf met meerdere opslagblokken

Concepten van datawarehousing

Voorbeeld gezondheidstabel

  • CDC (Centers for Disease Control and Prevention)
  • Griepdata per leeftijdsgroep over meerdere seizoenen
SEIZOEN LEEFTIJDSGROEP OPNAMEPERCENTAGE
2019 0-17 jr 13,9%
2019 18-49 jr 22,5%
2019 50+ jr 63,7%
2020 0-17 jr 3,9%
2020 18-49 jr 18,1%
2020 50+ jr 78%
2021 0-17 jr 15,6%
2021 18-49 jr 23,3%
2021 50+ jr 61,1%
Concepten van datawarehousing

Voorbeeld rijopslag

SEIZOEN LEEFTIJDSGROEP OPNAMEPERCENTAGE
2019 0-17 jr 13,9%
2019 18-49 jr 22,5%
2019 50+ jr 63,7%
2020 0-17 jr 3,9%
2020 18-49 jr 18,1%
2020 50+ jr 78%
2021 0-17 jr 15,6%
2021 18-49 jr 23,3%
2021 50+ jr 61,1%

Symbolische afbeelding van een harde schijf met meerdere blokken opslag met in elk blok een rij opgeslagen

Concepten van datawarehousing

Voorbeeld kolomopslag

SEIZOEN LEEFTIJDSGROEP OPNAMEPERCENTAGE
2019 0-17 jr 13,9%
2019 18-49 jr 22,5%
2019 50+ jr 63,7%
2020 0-17 jr 3,9%
2020 18-49 jr 18,1%
2020 50+ jr 78%
2021 0-17 jr 15,6%
2021 18-49 jr 23,3%
2021 50+ jr 61,1%

Symbolische afbeelding van een harde schijf met meerdere blokken opslag met in elk blok een kolom opgeslagen

Concepten van datawarehousing

Samenvatting

Rijopslag

  • Rijweergegevens samen opgeslagen in blokken
  • Ideaal voor transactionele workloads

Kolomopslag

  • Kolomgegevens samen opgeslagen in blokken
  • Ideaal voor analytische workloads
  • Betere datacompressie
Concepten van datawarehousing

Laten we oefenen!

Concepten van datawarehousing

Preparing Video For Download...