Cadres de calcul parallèle

Introduction au data engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

 

Logo d’Apache Hadoop

Introduction au data engineering

HDFS

 

Schéma de HDFS comme système de fichiers distribué

Introduction au data engineering

MapReduce

 

Logo de Hadoop MapReduce

 

Schéma illustrant l’exemple des épreuves olympiques

Introduction au data engineering

Hive

 

  • S’exécute sur Hadoop
  • Langage SQL structuré : Hive SQL
  • D’abord MapReduce, maintenant d’autres outils

Logo d’Apache Hive

Introduction au data engineering

Hive : un exemple

 

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

 

Schéma de Hive vers MapReduce

Introduction au data engineering

Image du logo Spark

  • Évite les écritures disque
  • Géré par l’Apache Software Foundation
Introduction au data engineering

Resilient Distributed Datasets (RDD)

 

  • Spark s’appuie dessus
  • Semblable à une liste de tuples
  • Transformations : .map() ou .filter()
  • Actions : .count() ou .first()
Introduction au data engineering

PySpark

 

  • Interface Python pour Spark
  • Abstraction DataFrame
  • Semblable à Pandas
Introduction au data engineering

PySpark : un exemple

# Load the dataset into athlete_events_spark first

(athlete_events_spark
  .groupBy('Year')
  .mean('Age')
  .show())
SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year
Introduction au data engineering

Passons à la pratique !

Introduction au data engineering

Preparing Video For Download...