De datapijplijn

Data Engineering begrijpen

Hadrien Lacroix

Content Developer at DataCamp

Als data het nieuwe olie is...

data is the new oil - economist cover

1 The Economist, 2017-05-06, door David Parkins
Data Engineering begrijpen

oliebron

Data Engineering begrijpen

pijp van oliebron

Data Engineering begrijpen

destillatie

Data Engineering begrijpen

residu

Data Engineering begrijpen

zware olie

Data Engineering begrijpen

diesel

Data Engineering begrijpen

kerosine

Data Engineering begrijpen

nafta

Data Engineering begrijpen

benzine

Data Engineering begrijpen

kerosine gaat direct naar de luchthaven

Data Engineering begrijpen

benzine gaat naar een opslagfaciliteit

Data Engineering begrijpen

benzine van opslag naar tankstations

Data Engineering begrijpen

nafta ondergaat chemische transformaties

Data Engineering begrijpen

plastic gaat naar de fabriek

Data Engineering begrijpen

Terug naar data engineering

  • Ingestie
  • Verwerken
  • Opslaan
  • Pijplijnen nodig
  • Stroom van station naar station automatiseren
  • Actuele, juiste, relevante data leveren

$$

data-engineer

Data Engineering begrijpen

mobiel

Data Engineering begrijpen

computer

Data Engineering begrijpen

website

Data Engineering begrijpen

pijpen van mobiele app, desktopapp en website

Data Engineering begrijpen

datarack

Data Engineering begrijpen

artiesten

Data Engineering begrijpen

albums

Data Engineering begrijpen

tracks

Data Engineering begrijpen

afspeellijsten

Data Engineering begrijpen

klanten

Data Engineering begrijpen

medewerkers

Data Engineering begrijpen

Artists database

Data Engineering begrijpen

salesmedewerkers

Data Engineering begrijpen

engineeringmedewerkers

Data Engineering begrijpen

Supportmedewerkers

Data Engineering begrijpen

Salesmedewerkers Verenigde Staten

Data Engineering begrijpen

Salesmedewerkers België

Data Engineering begrijpen

Salesmedewerkers Frankrijk

Data Engineering begrijpen

controleer en schoon tracks

Data Engineering begrijpen

schrijf schone tracks naar database

Data Engineering begrijpen

Data Engineering begrijpen

Data Engineering begrijpen

Data Engineering begrijpen

Data Engineering begrijpen

Data Engineering begrijpen

Data Engineering begrijpen

Data Engineering begrijpen

Data Engineering begrijpen

Data Engineering begrijpen

Oprah deelt pijplijnen uit

Data Engineering begrijpen

Oprah deelt pijplijnen uit

Data Engineering begrijpen

Oprah deelt pijplijnen uit

Data Engineering begrijpen

Datapijplijnen zorgen voor een efficiënte datastroom

Automatiseer

  • Extractie
  • Transformatie
  • Combineren
  • Valideren
  • Laden

Verminder

  • Menselijke tussenkomst
  • Fouten
  • Tijd tot datastroom
Data Engineering begrijpen

ETL en datapijplijnen

ETL

  • Populair raamwerk voor datapijplijnen
  • 1) Extract data
  • 2) Transform geëxtraheerde data
  • 3) Load getransformeerde data naar een andere database

Datapijplijnen

  • Verplaatsen data tussen systemen
  • Kunnen ETL volgen
  • Data wordt soms niet getransformeerd
  • Data kan direct in apps worden geladen
Data Engineering begrijpen

Samenvatting

  • Wat een datapijplijn is
  • Wat die doet
  • Waarom die belangrijk is
  • Hoe Spotflix datapijplijnen bouwt
  • Wat ETL is en de nuances
Data Engineering begrijpen

Laten we oefenen!

Data Engineering begrijpen

Preparing Video For Download...