Parallel computing

Data Engineering begrijpen

Hadrien Lacroix

Content Developer at DataCamp

Parallel computing

  • Basis van moderne datatools
  • Nodig:
    • Vooral wegens geheugen
    • Ook voor rekenkracht
  • Werkwijze:
    • Splits taken in kleine subtaken
    • Verdeel die over meerdere computers
Data Engineering begrijpen

1000 t‑shirts

Data Engineering begrijpen

senior verkoopmedewerker

Data Engineering begrijpen

junior verkoopmedewerker

1 Emojis door Mohamed Hassan
Data Engineering begrijpen

één verkoopmedewerker tegelijk

Data Engineering begrijpen

t-shirts in batches

Data Engineering begrijpen

junior verkoopmedewerkers klaar in 1 uur en 15 minuten

Data Engineering begrijpen

senior verkoopmedewerkers klaar in 2 uur en 13 minuten

Data Engineering begrijpen

Voordelen en risico’s van parallel computing

  • Medewerkers = verwerkings­eenheden
  • Voordelen
    • Extra rekenkracht
    • Minder geheugengebruik
  • Nadelen
    • Data verplaatsen kost iets
    • Communicatietijd
Data Engineering begrijpen

prestaties junior vs. senior verkoopmedewerkers

Data Engineering begrijpen

het kost 10 minuten om 1000 t-shirts te verdelen over 4 junior medewerkers

Data Engineering begrijpen

het kost 5 minuten om de t-shirts van 4 junior medewerkers te bundelen

Data Engineering begrijpen

datapijplijn

Data Engineering begrijpen

datapijplijn

Data Engineering begrijpen

Samenvatting

  • Plus- en minpunten
  • Hoe Spotflix het toepast
Data Engineering begrijpen

Laten we oefenen!

Data Engineering begrijpen

Preparing Video For Download...