PySpark'e Giriş
Benjamin Schmidt
Data Engineer
UDF (Kullanıcı Tanımlı Fonksiyon): PySpark veri çerçeveleri ile veri üzerinde çalışmak için özel fonksiyon
UDF'lerin Avantajları:
Tüm PySpark UDF'leri udf() fonksiyonu ile kaydedilmelidir.
# Fonksiyonu tanımla def to_uppercase(s): return s.upper() if s else None# Fonksiyonu kaydet to_uppercase_udf = udf(to_uppercase, StringType())# UDF'yi DataFrame'e uygula df = df.withColumn("name_upper", to_uppercase_udf(df["name"]))# Sonuçları gör df.show()
Unutmayın: UDF'ler, PySpark DataFrames üzerinde özel Python mantığı uygulamanıza olanak tanır
from pyspark.sql.functions import pandas_udf
@pandas_udf("float")
def fahrenheit_to_celsius_pandas(temp_f):
return (temp_f - 32) * 5.0/9.0
udf() ile bir Spark Oturumuna kaydedilmelidirPySpark'e Giriş