Einführung in PySpark
Benjamin Schmidt
Data Engineer
UDF (User-Defined-Function: benutzerdefinierte Funktion): Eine individuelle Funktion, um mit Daten mithilfe von PySpark-DataFrames zu arbeiten.
Vorteile von UDFs:
Alle PySpark-UDFs müssen über die Funktion udf() registriert werden.
# Define the function def to_uppercase(s): return s.upper() if s else None# Register the function to_uppercase_udf = udf(to_uppercase, StringType())# Apply the UDF to the DataFrame df = df.withColumn("name_upper", to_uppercase_udf(df["name"]))# See the results df.show()
Denke daran: Mit UDFs kannst du benutzerdefinierte Python-Logik auf PySpark-DataFrames anwenden.
from pyspark.sql.functions import pandas_udf
@pandas_udf("float")
def fahrenheit_to_celsius_pandas(temp_f):
return (temp_f - 32) * 5.0/9.0
udf() in einer Spark-Session registriert seinEinführung in PySpark