Grundlagen von Big Data mit PySpark
Upendra Devisetty
Science Analyst, CyVerse
Apache Spark ist in Scala geschrieben
Für Python-Unterstützung veröffentlichte die Community PySpark
Ähnliche Geschwindigkeit und Leistung wie Scala
PySpark-APIs ähneln Pandas und Scikit-learn
Interaktive Umgebung zum Ausführen von Spark-Jobs
Nützlich für schnelles, interaktives Prototyping
Shells erlauben Interaktion mit Daten auf Disk oder im Speicher
Drei Spark-Shells:
Spark-shell für Scala
PySpark-shell für Python
SparkR für R
Die PySpark-Shell ist das Python-basierte Kommandozeilentool
Sie ermöglicht Data Scientists den Zugriff auf Spark-Datenstrukturen
Die PySpark-Shell kann sich mit einem Cluster verbinden
SparkContext ist der Einstiegspunkt in Spark
Ein Einstiegspunkt verbindet dich mit dem Spark-Cluster
Ein Einstiegspunkt ist wie ein Schlüssel zum Haus
PySpark hat standardmäßig einen SparkContext namens sc
sc.version
2.3.1
sc.pythonVer
3.6
sc.master
local[*]
parallelize() des SparkContextrdd = sc.parallelize([1,2,3,4,5])
textFile() des SparkContextrdd2 = sc.textFile("test.txt")
Grundlagen von Big Data mit PySpark