Grundlagen von Big Data mit PySpark
Upendra Devisetty
Science Analyst, CyVerse
Kapitel 1: Big-Data-Grundlagen und Einführung in Spark als verteiltes Rechenframework
Hauptkomponenten: Spark Core und integrierte Bibliotheken – Spark SQL, Spark MLlib, GraphX und Spark Streaming
PySpark: Die Python-API von Apache Spark zum Ausführen von Spark-Jobs
PySpark-Shell: Für interaktive Entwicklung in Python
Spark-Modi: Lokal- und Clustermodus
Kapitel 2: Einführung in RDDs, Eigenschaften von RDDs, Erstellen von RDDs und RDD-Operationen (Transformationen und Aktionen)
Kapitel 3: Einführung in Spark SQL, DataFrame-Abstraktion, Erstellen von DataFrames, DataFrame-Operationen und Big-Data-Visualisierung mit DataFrames
Kapitel 4: Einführung in Spark MLlib, die drei C des Machine Learning (Collaborative Filtering, Classification und Clustering)
Grundlagen von Big Data mit PySpark