User-defined functions

Data opschonen met PySpark

Mike Metzger

Data Engineering Consultant

Gedefinieerd...

User-defined functions of UDF's

  • Python-methode
  • Ingepakt via de pyspark.sql.functions.udf-methode
  • Opgeslagen als variabele
  • Aangeroepen als een normale Spark-functie
Data opschonen met PySpark

UDF voor omgekeerde string

Definieer een Python-methode

def reverseString(mystr):
    return mystr[::-1]

Wikkel de functie en sla op als variabele

udfReverseString = udf(reverseString, StringType())

Gebruik met Spark

user_df = user_df.withColumn('ReverseName', 
                 udfReverseString(user_df.Name))
Data opschonen met PySpark

Voorbeeld zonder argumenten

def sortingCap():
    return random.choice(['G', 'H', 'R', 'S'])
udfSortingCap = udf(sortingCap, StringType())
user_df = user_df.withColumn('Class', udfSortingCap())
Name Age Class
Alice 14 H
Bob 18 S
Candice 63 G
Data opschonen met PySpark

Laten we oefenen!

Data opschonen met PySpark

Preparing Video For Download...