Frameworks des parallelen Rechnens

Einführung in das Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

 

Logo von Apache Hadoop

Einführung in das Data Engineering

HDFS

 

Diagramm von HDFS als verteiltes Dateisystem

Einführung in das Data Engineering

MapReduce

 

Logo von Hadoop MapReduce

 

Diagramm, das olympische Disziplinen zeigt

Einführung in das Data Engineering

Hive

 

  • Läuft auf Hadoop
  • Structured Query Language (strukturierte Abfragesprache): Hive SQL
  • Anfangs MapReduce, jetzt andere Tools

Logo von Apache Hive

Einführung in das Data Engineering

Hive: ein Beispiel

 

SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year

 

Darstellung „Hive zu MapReduce“

Einführung in das Data Engineering

Bild des Spark-Logos

  • Vermeidet Schreibvorgänge auf die Festplatte
  • Betreut von der Apache Software Foundation
Einführung in das Data Engineering

Resilient Distributed Datasets (RDD)

 

  • Spark nutzt sie
  • Ähnlich wie eine Liste von Tupeln
  • Transformationen: .map() oder .filter()
  • Aktionen: .count() oder .first()
Einführung in das Data Engineering

PySpark

 

  • Python-Schnittstelle zu Spark
  • DataFrame-Abstraktion
  • Sieht ähnlich aus wie pandas
Einführung in das Data Engineering

PySpark: ein Beispiel

# Load the dataset into athlete_events_spark first

(athlete_events_spark
  .groupBy('Year')
  .mean('Age')
  .show())
SELECT year, AVG(age)
FROM views.athlete_events
GROUP BY year
Einführung in das Data Engineering

Lass uns üben!

Einführung in das Data Engineering

Preparing Video For Download...