Introducción a PySpark
Benjamin Schmidt
Data Engineer
UDF (Función Definida por el Usuario): función personalizada para trabajar con datos usando dataframes de PySpark
Ventajas de las UDFs:
Todas las UDFs de PySpark deben registrarse con la función udf().
# Definir la función def to_uppercase(s): return s.upper() if s else None# Registrar la función to_uppercase_udf = udf(to_uppercase, StringType())# Aplicar la UDF al DataFrame df = df.withColumn("name_upper", to_uppercase_udf(df["name"]))# Ver los resultados df.show()
Recuerda: Las UDFs te permiten aplicar lógica Python personalizada en DataFrames de PySpark
from pyspark.sql.functions import pandas_udf
@pandas_udf("float")
def fahrenheit_to_celsius_pandas(temp_f):
return (temp_f - 32) * 5.0/9.0
udf()Introducción a PySpark