Fortgeschrittene DataFrame-Operationen

Einführung in PySpark

Ben Schmidt

Data Engineer

Joins in PySpark

Kombinieren Zeilen aus zwei oder mehr DataFrames anhand gemeinsamer Spalten.
Arten von Joins: innere, linke, rechte und äußere, wie bei SQL
Syntax: DataFrame1.join(DataFrame2, on="column", how="join_type")

# Joining on id column using an inner join
df_joined = df1.join(df2, on="id", how="inner")


# Joining on columns with different names
df_joined = df1.join(df2, 
               df1.Id == df2.Name, 
               "inner")

Union

Kombiniert Zeilen aus zwei DataFrames mit dem gleichen Schema
Syntax: DataFrame1.union(DataFrame2)

# Union of two DataFrames with identical schemas
df_union = df1.union(df2)

Arbeiten mit Arrays und Maps

Arrays: Nützlich zum Speichern von Listen in Spalten, Syntax: `ArrayType(StringType(),False)`

from pyspark.sql.functions import array, struct, lit

# Create an array column
df = df.withColumn("scores", array(lit(85), lit(90), lit(78)))

Maps: Schlüssel-Wert-Paare, super für Daten, die wie ein Wörterbuch aufgebaut sind, MapType(StringType(),StringType())

from pyspark.sql.types import StructField, StructType, StringType, MapType

schema = StructType([
    StructField('name', StringType(), True),
    StructField('properties', MapType(StringType(), StringType()), True)
])

Arbeiten mit Structs

Structs: Erstellen verschachtelte Strukturen innerhalb von Zeilen. Syntax: StructType(Structfield, Datatype())

# Create a struct column
df = df.withColumn("name_struct", struct("first_name", "last_name"))

# Create a struct column
df = df.withColumn("name_struct", struct("first_name", "last_name"))

Lass uns üben!

Einführung in PySpark