Fundamental Big Data dengan PySpark
Upendra Devisetty
Science Analyst, CyVerse
Apache Spark ditulis dalam Scala
Untuk mendukung Python di Spark, Komunitas Apache Spark merilis PySpark
Kecepatan dan daya komputasi mirip dengan Scala
API PySpark mirip dengan Pandas dan Scikit-learn
Lingkungan interaktif untuk menjalankan job Spark
Berguna untuk prototipe interaktif cepat
Shell Spark memungkinkan interaksi dengan data di disk atau memori
Tiga shell Spark:
Spark-shell untuk Scala
PySpark-shell untuk Python
SparkR untuk R
PySpark shell adalah alat baris perintah berbasis Python
PySpark shell memungkinkan data scientist berinteraksi dengan struktur data Spark
PySpark shell mendukung koneksi ke kluster
SparkContext adalah titik masuk ke dunia Spark
Titik masuk adalah cara terhubung ke kluster Spark
Titik masuk ibarat kunci rumah
PySpark memiliki SparkContext default bernama sc
sc.version
2.3.1
sc.pythonVer
3.6
sc.master
local[*]
parallelize() pada SparkContextrdd = sc.parallelize([1,2,3,4,5])
textFile() pada SparkContextrdd2 = sc.textFile("test.txt")
Fundamental Big Data dengan PySpark