Einführung in PySpark

Einführung in PySpark

Benjamin Schmidt

Data Engineer

Lerne deinen Dozenten kennen

  • Fast ein Jahrzehnt Erfahrung mit PySpark
  • PySpark für Machine Learning, ETL-Aufgaben und mehr genutzt

  • Begeisterter Lehrer für neue Tools für alle!

-Ben Schmidt

Einführung in PySpark

Was ist PySpark?

  • Verteilte Datenverarbeitung: Entwickelt für große Datensätze über Cluster

  • Unterstützt verschiedene Datenformate wie CSV, Parquet und JSON

  • SQL-Integration ermöglicht Abfragen mit Python und SQL-Syntax

  • Für Geschwindigkeit im großen Maßstab optimiert

Data_ecosystem

Einführung in PySpark

Wann nutzen wir PySpark?

  • Big Data Analytics

  • Verteilte Datenverarbeitung

  • Echtzeit-Datenstreaming

  • Machine Learning auf großen Datensätzen

  • ETL- und ELT-Pipelines

  • Arbeiten mit verschiedenen Datenquellen:

    1. CSV
    2. JSON
    3. Parquet
    4. Viele mehr
Einführung in PySpark

Spark-Cluster

Master-Node

  • Verwalten des Clusters, Koordinieren von Aufgaben und Planen von Jobs

Worker-Nodes

  • Führen die vom Master zugewiesenen Aufgaben aus
  • Verantwortlich für die Ausführung der Berechnungen und Speicherung der Daten im Speicher oder auf der Festplatte

Master node

Worker node

Einführung in PySpark

SparkSession

  • SparkSessions ermöglichen den Zugriff auf deinen Spark-Cluster und sind entscheidend für die Nutzung von PySpark.
# SparkSession importieren
from pyspark.sql import SparkSession

# Eine SparkSession initialisieren
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()

$$

  • .builder() richtet eine Session ein
  • getOrCreate() erstellt oder holt eine Session
  • .appName() hilft bei der Verwaltung mehrerer Sessions
Einführung in PySpark

PySpark DataFrames

  • Ähnlich wie andere DataFrames, aber
  • Für PySpark optimiert
# Spark-Session importieren und initialisieren
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()

# Ein DataFrame erstellen
census_df = spark.read.csv("census.csv",
                ["gender","age","zipcode","salary_range_usd","marriage_status"])

# Das DataFrame anzeigen
census_df.show()

Einführung in PySpark

Lass uns üben!

Einführung in PySpark

Preparing Video For Download...