Frameworks voor parallelle verwerking

Introductie tot Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

 

Logo van Apache Hadoop

Introductie tot Data Engineering

HDFS

 

Diagram van HDFS als gedistribueerd bestandssysteem

Introductie tot Data Engineering

MapReduce

 

Logo van Hadoop MapReduce

 

Diagram met voorbeeld van Olympische events

Introductie tot Data Engineering

Hive

 

  • Draait op Hadoop
  • Structured Query Language: Hive SQL
  • Eerst MapReduce, nu ook andere tools

Logo van Apache Hive

Introductie tot Data Engineering

Hive: een voorbeeld

 

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

 

Hive naar MapReduce-diagram

Introductie tot Data Engineering

Afbeelding van het Spark-logo

  • Vermijdt schrijfacties naar schijf
  • Beheerd door de Apache Software Foundation
Introductie tot Data Engineering

Resilient Distributed Datasets (RDD)

 

  • Spark bouwt hierop
  • Lijkt op een lijst met tuples
  • Transformaties: .map() of .filter()
  • Acties: .count() of .first()
Introductie tot Data Engineering

PySpark

 

  • Python-interface voor Spark
  • DataFrame-abstractie
  • Lijkt op Pandas
Introductie tot Data Engineering

PySpark: een voorbeeld

# Load the dataset into athlete_events_spark first

(athlete_events_spark
  .groupBy('Year')
  .mean('Age')
  .show())
SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year
Introductie tot Data Engineering

Laten we oefenen!

Introductie tot Data Engineering

Preparing Video For Download...