Big Data Fundamentals met PySpark
Upendra Devisetty
Science Analyst, CyVerse
Hoofdstuk 1: Basis van Big Data en kennismaking met Spark als gedistribueerd computing‑framework
Belangrijkste componenten: Spark Core en ingebouwde libraries — Spark SQL, Spark MLlib, GraphX en Spark Streaming
PySpark: de Python‑API van Apache Spark om Spark‑jobs uit te voeren
PySpark‑shell: voor interactieve apps bouwen in Python
Spark‑modi: local en cluster mode
Hoofdstuk 2: Introductie tot RDD’s, eigenschappen, aanmaken van RDD’s en RDD‑operaties (Transformations en Actions)
Hoofdstuk 3: Introductie tot Spark SQL, DataFrame‑abstractie, DataFrames maken, bewerkingen en visualiseren van Big Data met DataFrames
Hoofdstuk 4: Introductie tot Spark MLlib, de drie C’s van Machine Learning (Collaborative filtering, Classification en Clustering)
Big Data Fundamentals met PySpark