Introdução ao PySpark
Benjamin Schmidt
Data Engineer
UDF (Função Definida pelo Usuário): função personalizada para trabalhar com dados usando dataframes PySpark
Vantagens das UDFs:
Todas as UDFs PySpark precisam ser registradas via a função udf().
# Defina a função def to_uppercase(s): return s.upper() if s else None# Registre a função to_uppercase_udf = udf(to_uppercase, StringType())# Aplique a UDF ao DataFrame df = df.withColumn("name_upper", to_uppercase_udf(df["name"]))# Veja os resultados df.show()
Lembre-se: UDFs permitem aplicar lógica Python personalizada em DataFrames PySpark
from pyspark.sql.functions import pandas_udf
@pandas_udf("float")
def fahrenheit_to_celsius_pandas(temp_f):
return (temp_f - 32) * 5.0/9.0
udf()Introdução ao PySpark