Glückwunsch!

Grundlagen von Big Data mit PySpark

Upendra Devisetty

Science Analyst, CyVerse

Big-Data-Grundlagen und Apache Spark

  • Kapitel 1: Big-Data-Grundlagen und Einführung in Spark als verteiltes Rechenframework

    • Hauptkomponenten: Spark Core und integrierte Bibliotheken – Spark SQL, Spark MLlib, GraphX und Spark Streaming

    • PySpark: Die Python-API von Apache Spark zum Ausführen von Spark-Jobs

    • PySpark-Shell: Für interaktive Entwicklung in Python

    • Spark-Modi: Lokal- und Clustermodus

Grundlagen von Big Data mit PySpark

Spark-Komponenten

  • Kapitel 2: Einführung in RDDs, Eigenschaften von RDDs, Erstellen von RDDs und RDD-Operationen (Transformationen und Aktionen)

  • Kapitel 3: Einführung in Spark SQL, DataFrame-Abstraktion, Erstellen von DataFrames, DataFrame-Operationen und Big-Data-Visualisierung mit DataFrames

  • Kapitel 4: Einführung in Spark MLlib, die drei C des Machine Learning (Collaborative Filtering, Classification und Clustering)

Grundlagen von Big Data mit PySpark

Wie geht’s weiter?

Grundlagen von Big Data mit PySpark

Preparing Video For Download...