Pengantar PySpark
Benjamin Schmidt
Data Engineer
UDF (Fungsi yang Didefinisikan Pengguna): fungsi kustom untuk bekerja dengan data menggunakan PySpark DataFrames
Keuntungan UDF:
Semua UDF PySpark perlu didaftarkan melalui fungsi udf().
# Definisikan fungsi def to_uppercase(s): return s.upper() if s else None# Daftarkan fungsi to_uppercase_udf = udf(to_uppercase, StringType())# Terapkan UDF ke DataFrame df = df.withColumn("name_upper", to_uppercase_udf(df["name"]))# Lihat hasilnya df.show()
Ingat: UDF memungkinkan Anda menerapkan logika Python kustom pada PySpark DataFrames
from pyspark.sql.functions import pandas_udf
@pandas_udf("float")
def fahrenheit_to_celsius_pandas(temp_f):
return (temp_f - 32) * 5.0/9.0
udf()Pengantar PySpark