Frameworks des parallelen Rechnens

Einführung in das Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Logo von Apache Hadoop

HDFS

Diagramm von HDFS als verteiltes Dateisystem

Logo von Hadoop MapReduce

Diagramm, das olympische Disziplinen zeigt

Logo von Apache Hive

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

Darstellung „Hive zu MapReduce“

Bild des Spark-Logos

# Load the dataset into athlete_events_spark first

(athlete_events_spark
  .groupBy('Year')
  .mean('Age')
  .show())

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

Einführung in das Data Engineering