Voorwaardelijke kolombewerkingen op DataFrames

Data opschonen met PySpark

Mike Metzger

Data Engineering Consultant

Voorwaardelijke clausules

Voorwaardelijke clausules zijn:

  • Inline-versie van if/then/else
  • .when()
  • .otherwise()
Data opschonen met PySpark

Voorbeeld met voorwaarden

.when(<if condition>, <then x>)

df.select(df.Name, df.Age, F.when(df.Age >= 18, "Adult"))

Name Age
Alice 14
Bob 18 Volwassene
Candice 38 Volwassene
Data opschonen met PySpark

Nog een voorbeeld

Meerdere .when()

df.select(df.Name, df.Age, 
          .when(df.Age >= 18, "Adult")
          .when(df.Age < 18, "Minor"))
Name Age
Alice 14 Minderjarig
Bob 18 Volwassene
Candice 38 Volwassene
Data opschonen met PySpark

Otherwise

.otherwise() is zoals else

df.select(df.Name, df.Age,
          .when(df.Age >= 18, "Adult")
          .otherwise("Minor"))
Name Age
Alice 14 Minderjarig
Bob 18 Volwassene
Candice 38 Volwassene
Data opschonen met PySpark

Laten we oefenen!

Data opschonen met PySpark

Preparing Video For Download...