Datawarehouses en datalakes
Data Engineering begrijpen
Hadrien Lacroix
Content Developer
Magazijnen met prachtig uitzicht op het meer
Datalakes en datawarehouses
Datalake
Slaat alle ruwe data op
Kan petabytes zijn (1 miljoen GB)
Slaat alle datastructuren op
Kostenefficiënt
Moeilijk te analyseren
Vereist een actuele datacatalogus
Gebruikt door data scientists
Big data, realtime-analyse
Datawarehouse
Specifieke data voor specifiek gebruik
Relatief klein
Slaat vooral gestructureerde data op
Duurder om te updaten
Geoptimaliseerd voor data-analyse
Ook gebruikt door data- en business-analisten
Ad-hoc, alleen-lezen queries
Datacatalogus voor datalakes
Wat is de bron van deze data?
Waar wordt deze data gebruikt?
Wie is de eigenaar van de data?
Hoe vaak wordt deze data geüpdatet?
Goede praktijk voor data governance
Borgt reproduceerbaarheid
Geen catalogus --> data swamp
Goede praktijk voor elke datacatalogus
Betrouwbaarheid
Autonomie
Schaalbaarheid
Snelheid
Database vs. datawarehouse
Database:
Overkoepelende term
Vaak gedefinieerd als
georganiseerde data die op een computer wordt opgeslagen en benaderd
Datawarehouse is een type database
Samenvatting
Datalakes
Datawarehouses
Databases
Datacatalogus
Laten we oefenen!
Data Engineering begrijpen
Preparing Video For Download...