Glückwunsch!

Grundlagen von Big Data mit PySpark

Upendra Devisetty

Science Analyst, CyVerse

Big-Data-Grundlagen und Apache Spark

Kapitel 1: Big-Data-Grundlagen und Einführung in Spark als verteiltes Rechenframework
- Hauptkomponenten: Spark Core und integrierte Bibliotheken – Spark SQL, Spark MLlib, GraphX und Spark Streaming
- PySpark: Die Python-API von Apache Spark zum Ausführen von Spark-Jobs
- PySpark-Shell: Für interaktive Entwicklung in Python
- Spark-Modi: Lokal- und Clustermodus

Spark-Komponenten

Kapitel 2: Einführung in RDDs, Eigenschaften von RDDs, Erstellen von RDDs und RDD-Operationen (Transformationen und Aktionen)
Kapitel 3: Einführung in Spark SQL, DataFrame-Abstraktion, Erstellen von DataFrames, DataFrame-Operationen und Big-Data-Visualisierung mit DataFrames
Kapitel 4: Einführung in Spark MLlib, die drei C des Machine Learning (Collaborative Filtering, Classification und Clustering)

Wie geht’s weiter?

Grundlagen von Big Data mit PySpark

Preparing Video For Download...