Einführung in PySpark
Benjamin Schmidt
Data Engineer
PySpark angewendet für maschinelles Lernen, ETL-Aufgaben und vieles mehr
Motivierter Lehrer für neue Tools für alle!

Verteilte Datenverarbeitung: Entwickelt, um große Datenmengen über Cluster hinweg zu verarbeiten
Unterstützt verschiedene Datenformate wie CSV, Parquet und JSON
Eine SQL-Integration ermöglicht Abfragen sowohl mit Python- als auch mit SQL-Syntax.
Optimiert für Geschwindigkeit bei großen Datenmengen und Operationen

Big-Data-Analyse
Verteilte Datenverarbeitung
Echtzeit-Datenstreaming
Maschinelles Lernen mit großen Datensätzen
ETL- und ELT-Pipelines
Arbeit mit verschiedenen Datenquellen:


# Import SparkSession
from pyspark.sql import SparkSession
# Initialize a SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
$$
.builder() eine Session einrichtetgetOrCreate() erstellt oder ruft eine Session ab.appName() hilft beim Verwalten mehrerer Sessions# Import and initialize a Spark session
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
# Create a DataFrame
census_df = spark.read.csv("census.csv",
["gender","age","zipcode","salary_range_usd","marriage_status"])
# Show the DataFrame
census_df.show()
Einführung in PySpark