Calculs parallèles

Présentation de l’ingénierie des données

Hadrien Lacroix

Content Developer at DataCamp

Calculs parallèles

  • Base des outils modernes de traitement des données
  • Nécessaire :
    • Principalement pour la mémoire
    • Également pour la puissance de traitement
  • Fonctionnement :
    • Diviser les tâches en plusieurs sous-tâches plus petites
    • Répartir ces sous-tâches sur plusieurs ordinateurs
Présentation de l’ingénierie des données

1 000 t-shirts

Présentation de l’ingénierie des données

vendeur senior

Présentation de l’ingénierie des données

vendeur junior

1 Emojis par Mohamed Hassan
Présentation de l’ingénierie des données

un vendeur à la fois

Présentation de l’ingénierie des données

traitement en lots des t-shirts

Présentation de l’ingénierie des données

les vendeurs juniors terminent en une heure et quinze minutes

Présentation de l’ingénierie des données

les vendeurs seniors terminent en deux heures et treize minutes

Présentation de l’ingénierie des données

Avantages et risques du parallélisme

  • Employés = unités de traitement
  • Avantages
    • Puissance de traitement supplémentaire
    • Réduction de l'empreinte mémoire
  • Inconvénients
    • Le déplacement des données a un coût
    • Temps de communication
Présentation de l’ingénierie des données

comparer les performances des vendeurs juniors et seniors

Présentation de l’ingénierie des données

il faut dix minutes pour distribuer les mille t-shirts aux quatre vendeurs juniors

Présentation de l’ingénierie des données

il faut cinq minutes pour rassembler les t-shirts des quatre vendeurs juniors en une seule pile

Présentation de l’ingénierie des données

pipeline de données

Présentation de l’ingénierie des données

pipeline de données

Présentation de l’ingénierie des données

Résumé

  • Avantages et risques
  • La mise en œuvre chez Spotflix
Présentation de l’ingénierie des données

Passons à la pratique !

Présentation de l’ingénierie des données

Preparing Video For Download...