PySpark: Spark dengan Python

Fundamental Big Data dengan PySpark

Upendra Devisetty

Science Analyst, CyVerse

Gambaran PySpark

  • Apache Spark ditulis dalam Scala

  • Untuk mendukung Python di Spark, Komunitas Apache Spark merilis PySpark

  • Kecepatan dan daya komputasi mirip dengan Scala

  • API PySpark mirip dengan Pandas dan Scikit-learn

Fundamental Big Data dengan PySpark

Apa itu Spark shell?

  • Lingkungan interaktif untuk menjalankan job Spark

  • Berguna untuk prototipe interaktif cepat

  • Shell Spark memungkinkan interaksi dengan data di disk atau memori

  • Tiga shell Spark:

    • Spark-shell untuk Scala

    • PySpark-shell untuk Python

    • SparkR untuk R

Fundamental Big Data dengan PySpark

Shell PySpark

  • PySpark shell adalah alat baris perintah berbasis Python

  • PySpark shell memungkinkan data scientist berinteraksi dengan struktur data Spark

  • PySpark shell mendukung koneksi ke kluster

Fundamental Big Data dengan PySpark

Memahami SparkContext

  • SparkContext adalah titik masuk ke dunia Spark

  • Titik masuk adalah cara terhubung ke kluster Spark

  • Titik masuk ibarat kunci rumah

  • PySpark memiliki SparkContext default bernama sc

1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Fundamental Big Data dengan PySpark

Memeriksa SparkContext

  • Versi: Mengambil versi SparkContext
sc.version
2.3.1
  • Versi Python: Mengambil versi Python dari SparkContext
sc.pythonVer
3.6
  • Master: URL kluster atau string lokal untuk mode lokal SparkContext
sc.master
local[*]
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Fundamental Big Data dengan PySpark

Memuat data di PySpark

  • Metode parallelize() pada SparkContext
rdd = sc.parallelize([1,2,3,4,5])
  • Metode textFile() pada SparkContext
rdd2 = sc.textFile("test.txt")
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Fundamental Big Data dengan PySpark

Ayo berlatih!

Fundamental Big Data dengan PySpark

Preparing Video For Download...