PySpark: Spark met Python

Big Data Fundamentals met PySpark

Upendra Devisetty

Science Analyst, CyVerse

Overzicht van PySpark

Interactieve omgeving om Spark-jobs te draaien
Handig voor snel interactief prototypen
Shells laten je met data op schijf of in geheugen werken
Drie Spark-shells:
- Spark-shell voor Scala
- PySpark-shell voor Python
- SparkR voor R

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

sc.version

2.3.1

sc.pythonVer

3.6

Master: URL van de cluster of lokale string om lokaal te draaien voor SparkContext

sc.master

local[*]

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

rdd = sc.parallelize([1,2,3,4,5])

rdd2 = sc.textFile("test.txt")

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

Big Data Fundamentals met PySpark