Introduzione a PySpark
Benjamin Schmidt
Data Engineer
UDF (User-Defined Function): funzione personalizzata per lavorare con i dati usando i dataframe PySpark
Vantaggi delle UDF:
Tutte le UDF PySpark devono essere registrate tramite la funzione udf().
# Definisci la funzione def to_uppercase(s): return s.upper() if s else None# Registra la funzione to_uppercase_udf = udf(to_uppercase, StringType())# Applica la UDF al DataFrame df = df.withColumn("name_upper", to_uppercase_udf(df["name"]))# Visualizza i risultati df.show()
Ricorda: le UDF ti permettono di applicare logica Python personalizzata sui DataFrame PySpark
from pyspark.sql.functions import pandas_udf
@pandas_udf("float")
def fahrenheit_to_celsius_pandas(temp_f):
return (temp_f - 32) * 5.0/9.0
udf()Introduzione a PySpark