Einführung in PySpark
Benjamin Schmidt
Data Engineer
UDF (User-Defined Function): benutzerdefinierte Funktion für Daten mit PySpark DataFrames
Vorteile von UDFs:
Alle PySpark UDFs müssen über die udf()-Funktion registriert werden.
# Funktion definieren def to_uppercase(s): return s.upper() if s else None# Funktion registrieren to_uppercase_udf = udf(to_uppercase, StringType())# UDF auf DataFrame anwenden df = df.withColumn("name_upper", to_uppercase_udf(df["name"]))# Ergebnisse anzeigen df.show()
Merke: UDFs ermöglichen benutzerdefinierte Python-Logik auf PySpark DataFrames
from pyspark.sql.functions import pandas_udf
@pandas_udf("float")
def fahrenheit_to_celsius_pandas(temp_f):
return (temp_f - 32) * 5.0/9.0
udf() zur Spark Session registriert werdenEinführung in PySpark