Fundamental Big Data dengan PySpark
Upendra Devisetty
Science Analyst, CyVerse
Bab 1: Dasar Big Data dan pengenalan Spark sebagai kerangka komputasi terdistribusi
Komponen utama: Spark Core dan pustaka bawaan — Spark SQL, Spark MLlib, GraphX, dan Spark Streaming
PySpark: API Python Apache Spark untuk menjalankan job Spark
PySpark shell: Untuk mengembangkan aplikasi interaktif di Python
Mode Spark: Mode lokal dan kluster
Bab 2: Pengenalan RDD, fitur-fitur RDD, cara membuat RDD, dan operasi RDD (Transformations dan Actions)
Bab 3: Pengenalan Spark SQL, abstraksi DataFrame, membuat DataFrame, operasi DataFrame, dan visualisasi Big Data lewat DataFrame
Bab 4: Pengenalan Spark MLlib, tiga C dalam Machine Learning (Collaborative filtering, Classification, dan Clustering)
Fundamental Big Data dengan PySpark