Cadres de calcul parallèle

Introduction au data engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Logo d’Apache Hadoop

HDFS

Schéma de HDFS comme système de fichiers distribué

Logo de Hadoop MapReduce

Schéma illustrant l’exemple des épreuves olympiques

Logo d’Apache Hive

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

Schéma de Hive vers MapReduce

Image du logo Spark

# Load the dataset into athlete_events_spark first

(athlete_events_spark
  .groupBy('Year')
  .mean('Age')
  .show())

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

Introduction au data engineering