Introduction à PySpark
Benjamin Schmidt
Data Engineer
UDF (Fonction Définie par l'Utilisateur) : fonction personnalisée pour manipuler des données avec les DataFrames PySpark
Avantages des UDF :
Toutes les UDF PySpark doivent être enregistrées via la fonction udf().
# Définir la fonction def to_uppercase(s): return s.upper() if s else None# Enregistrer la fonction to_uppercase_udf = udf(to_uppercase, StringType())# Appliquer la UDF au DataFrame df = df.withColumn("name_upper", to_uppercase_udf(df["name"]))# Voir les résultats df.show()
Rappel : Les UDF permettent d'appliquer une logique Python personnalisée sur les DataFrames PySpark
from pyspark.sql.functions import pandas_udf
@pandas_udf("float")
def fahrenheit_to_celsius_pandas(temp_f):
return (temp_f - 32) * 5.0/9.0
udf()Introduction à PySpark