Einführung in PySpark
Benjamin Schmidt
Data Engineer
spark.read.csv("path/to/file.csv")
spark.read.json("path/to/file.json")
spark.read.parquet("path/to/file.parquet")
Spark kann Schemas aus Daten ableiten mit inferSchema=True
Schema manuell definieren für bessere Kontrolle - nützlich bei festen Datenstrukturen

IntegerType: Ganze Zahlen1, 3478, -18904569223347758063.14159"Dies ist ein Beispiel für eine Zeichenfolge."# Importiere die notwendigen Typen als Klassen
from pyspark.sql.types import (StructType,
StructField, IntegerType,
StringType, ArrayType)
# Erstelle das Schema
schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True),
StructField("scores", ArrayType(IntegerType()), True)
])
# Setze das Schema
df = spark.createDataFrame(data, schema=schema)
.select(), um bestimmte Spalten auszuwählen.filter() oder .where(), um Zeilen nach Bedingungen zu filtern.sort(), um nach Spalten zu sortieren# Wähle und zeige nur die Spalten Name und Alter
df.select("name", "age").show()
# Filtere nach Alter > 30
df.filter(df["age"] > 30).show()
# Nutze Where, um einen bestimmten Wert zu filtern
df.where(df["age"] == 30).show()
# Nutze Sort, um nach Alter zu sortieren
df.sort("age", ascending=False).show()
.sort() oder .orderBy() sortierenna.drop(), um Zeilen mit Nullwerten zu entfernen# Sortiere nach der Spalte Alter
df.sort("age", ascending=False).show()
# Fehlende Werte entfernen
df.na.drop().show()
spark.read_json(): Daten aus JSON ladenspark.read.schema(): Schemas explizit definieren.na.drop(): Zeilen mit fehlenden Werten entfernen.select(), .filter(), .sort(), .orderBy(): Grundlegende DatenmanipulationEinführung in PySpark