PySpark: Spark dengan Python

Fundamental Big Data dengan PySpark

Upendra Devisetty

Science Analyst, CyVerse

Gambaran PySpark

Lingkungan interaktif untuk menjalankan job Spark
Berguna untuk prototipe interaktif cepat
Shell Spark memungkinkan interaksi dengan data di disk atau memori
Tiga shell Spark:
- Spark-shell untuk Scala
- PySpark-shell untuk Python
- SparkR untuk R

PySpark shell adalah alat baris perintah berbasis Python
PySpark shell memungkinkan data scientist berinteraksi dengan struktur data Spark
PySpark shell mendukung koneksi ke kluster

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

sc.version

2.3.1

sc.pythonVer

3.6

sc.master

local[*]

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

rdd = sc.parallelize([1,2,3,4,5])

rdd2 = sc.textFile("test.txt")

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

Fundamental Big Data dengan PySpark