Einführung in PySpark

Einführung in PySpark

Benjamin Schmidt

Data Engineer

Lerne deinen Kursleiter kennen

  • Fast ein Jahrzehnt Erfahrung mit Datenverarbeitung mit PySpark
  • PySpark angewendet für maschinelles Lernen, ETL-Aufgaben und vieles mehr

  • Motivierter Lehrer für neue Tools für alle!

Ben Schmidt

Einführung in PySpark

Was ist PySpark?

  • Verteilte Datenverarbeitung: Entwickelt, um große Datenmengen über Cluster hinweg zu verarbeiten

  • Unterstützt verschiedene Datenformate wie CSV, Parquet und JSON

  • Eine SQL-Integration ermöglicht Abfragen sowohl mit Python- als auch mit SQL-Syntax.

  • Optimiert für Geschwindigkeit bei großen Datenmengen und Operationen

Data_ecosystem

Einführung in PySpark

Wann nutzen wir PySpark?

  • Big-Data-Analyse

  • Verteilte Datenverarbeitung

  • Echtzeit-Datenstreaming

  • Maschinelles Lernen mit großen Datensätzen

  • ETL- und ELT-Pipelines

  • Arbeit mit verschiedenen Datenquellen:

    1. CSV
    2. JSON
    3. Parquet
    4. Viele, viele mehr
Einführung in PySpark

Spark-Cluster

Master-Node

  • Verwaltet den Cluster, koordiniert Aufgaben und terminiert Jobs

Worker-Nodes

  • Führen vom Master zugeteilte Aufgaben aus.
  • Zuständig für die eigentlichen Berechnungen und das Speichern von Daten im Speicher oder auf der Festplatte

Master node

Worker node

Einführung in PySpark

SparkSession

  • Zugriff auf Spark-Cluster. Wichtig, wenn du PySpark nutzen willst.
# Import SparkSession
from pyspark.sql import SparkSession

# Initialize a SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()

$$

  • .builder() eine Session einrichtet
  • getOrCreate() erstellt oder ruft eine Session ab
  • .appName() hilft beim Verwalten mehrerer Sessions
Einführung in PySpark

PySpark-DataFrames

  • Ähnlich wie andere DataFrames
  • Aber: Optimiert für PySpark
# Import and initialize a Spark session
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()

# Create a DataFrame
census_df = spark.read.csv("census.csv",
                ["gender","age","zipcode","salary_range_usd","marriage_status"])

# Show the DataFrame
census_df.show()

Einführung in PySpark

Lass uns üben!

Einführung in PySpark

Preparing Video For Download...