Kullanıcı tanımlı fonksiyonlar

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

Tanımı...

Kullanıcı tanımlı fonksiyonlar (UDF)

  • Python yöntemi
  • pyspark.sql.functions.udf ile sarmalanır
  • Değişken olarak saklanır
  • Normal bir Spark fonksiyonu gibi çağrılır
PySpark ile Veri Temizleme

Ters çeviren string UDF’si

Bir Python yöntemi tanımlayın

def reverseString(mystr):
    return mystr[::-1]

Fonksiyonu sarın ve değişken olarak saklayın

udfReverseString = udf(reverseString, StringType())

Spark ile kullanın

user_df = user_df.withColumn('ReverseName', 
                 udfReverseString(user_df.Name))
PySpark ile Veri Temizleme

Argümansız örnek

def sortingCap():
    return random.choice(['G', 'H', 'R', 'S'])
udfSortingCap = udf(sortingCap, StringType())
user_df = user_df.withColumn('Class', udfSortingCap())
Name Age Class
Alice 14 H
Bob 18 S
Candice 63 G
PySpark ile Veri Temizleme

Hadi pratik yapalım!

PySpark ile Veri Temizleme

Preparing Video For Download...