Big Data Fundamentals met PySpark
Upendra Devisetty
Science Analyst, CyVerse
Apache Spark is geschreven in Scala
Om Python met Spark te gebruiken, bracht de community PySpark uit
Vergelijke rekensnelheid en -kracht als Scala
PySpark-API's lijken op Pandas en Scikit-learn
Interactieve omgeving om Spark-jobs te draaien
Handig voor snel interactief prototypen
Shells laten je met data op schijf of in geheugen werken
Drie Spark-shells:
Spark-shell voor Scala
PySpark-shell voor Python
SparkR voor R
PySpark-shell is de Python-gebaseerde command-line tool
PySpark-shell laat data scientists werken met Spark-datastructuren
PySpark-shell kan verbinden met een cluster
SparkContext is het toegangspunt tot Spark
Een toegangspunt verbindt je met de Spark-cluster
Een toegangspunt is als een sleutel van het huis
PySpark heeft standaard een SparkContext sc
sc.version
2.3.1
sc.pythonVer
3.6
sc.master
local[*]
parallelize() van SparkContextrdd = sc.parallelize([1,2,3,4,5])
textFile() van SparkContextrdd2 = sc.textFile("test.txt")
Big Data Fundamentals met PySpark