Einführung in PySpark
Benjamin Schmidt
Data Engineer
PySpark für Machine Learning, ETL-Aufgaben und mehr genutzt
Begeisterter Lehrer für neue Tools für alle!
-
Verteilte Datenverarbeitung: Entwickelt für große Datensätze über Cluster
Unterstützt verschiedene Datenformate wie CSV, Parquet und JSON
SQL-Integration ermöglicht Abfragen mit Python und SQL-Syntax
Für Geschwindigkeit im großen Maßstab optimiert

Big Data Analytics
Verteilte Datenverarbeitung
Echtzeit-Datenstreaming
Machine Learning auf großen Datensätzen
ETL- und ELT-Pipelines
Arbeiten mit verschiedenen Datenquellen:


# SparkSession importieren
from pyspark.sql import SparkSession
# Eine SparkSession initialisieren
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
$$
.builder() richtet eine Session eingetOrCreate() erstellt oder holt eine Session.appName() hilft bei der Verwaltung mehrerer Sessions# Spark-Session importieren und initialisieren
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
# Ein DataFrame erstellen
census_df = spark.read.csv("census.csv",
["gender","age","zipcode","salary_range_usd","marriage_status"])
# Das DataFrame anzeigen
census_df.show()
Einführung in PySpark