Frameworks voor parallelle verwerking

Introductie tot Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Logo van Apache Hadoop

HDFS

Diagram van HDFS als gedistribueerd bestandssysteem

Logo van Hadoop MapReduce

Diagram met voorbeeld van Olympische events

Logo van Apache Hive

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

Hive naar MapReduce-diagram

Afbeelding van het Spark-logo

# Load the dataset into athlete_events_spark first

(athlete_events_spark
  .groupBy('Year')
  .mean('Age')
  .show())

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

Introductie tot Data Engineering