De datapijplijn
Data Engineering begrijpen
Hadrien Lacroix
Content Developer at DataCamp
Als data het nieuwe olie is...
1
The Economist, 2017-05-06, door David Parkins
Terug naar data engineering
Ingestie
Verwerken
Opslaan
Pijplijnen nodig
Stroom van station naar station automatiseren
Actuele, juiste, relevante data leveren
$$
Datapijplijnen zorgen voor een efficiënte datastroom
Automatiseer
Extractie
Transformatie
Combineren
Valideren
Laden
Verminder
Menselijke tussenkomst
Fouten
Tijd tot datastroom
ETL en datapijplijnen
ETL
Populair raamwerk voor datapijplijnen
1)
Extract
data
2)
Transform
geëxtraheerde data
3)
Load
getransformeerde data naar een andere database
Datapijplijnen
Verplaatsen data tussen systemen
Kunnen ETL volgen
Data wordt soms niet getransformeerd
Data kan direct in apps worden geladen
Samenvatting
Wat een datapijplijn is
Wat die doet
Waarom die belangrijk is
Hoe Spotflix datapijplijnen bouwt
Wat ETL is en de nuances
Laten we oefenen!
Data Engineering begrijpen
Preparing Video For Download...