Extract Transform Select

Introductie tot Spark SQL in Python

Mark Plutowski

Data Scientist

ETS

Extract Transform Selec

Extract, Transform en Select

Extractie
Transformatie
Selectie

Ingebouwde functies

from pyspark.sql.functions import split, explode

De functie length

from pyspark.sql.functions import length

df.where(length('sentence') == 0)

Een eigen functie maken

User Defined Function
UDF

De functie udf importeren

from pyspark.sql.functions import udf

Een boolean UDF maken

print(df)

DataFrame[textdata: string]

from pyspark.sql.functions import udf

from pyspark.sql.types import BooleanType

Een boolean UDF maken

short_udf = udf(lambda x: 
                          True if not x or len(x) < 10 else False, 
                          BooleanType())

df.select(short_udf('textdata')\
  .alias("is short"))\
  .show(3)

+--------+
|is short|
+--------+
|   false|
|    true|
|   false|
+--------+

Belangrijke UDF-returntypes

from pyspark.sql.types import StringType, IntegerType, FloatType, ArrayType

Een array-UDF maken

df3.select('word array', in_udf('word array').alias('without endword'))\
   .show(5, truncate=30)

+-----------------------------+----------------------+
|                   word array|       without endword|
+-----------------------------+----------------------+
|[then, how, many, are, there]|[then, how, many, are]|
|                  [how, many]|                 [how]|
|             [i, donot, know]|            [i, donot]|
|                  [quite, so]|               [quite]|
|   [you, have, not, observed]|      [you, have, not]|
+-----------------------------+----------------------+

Een array-UDF maken

from pyspark.sql.types import StringType, ArrayType

# Removes last item in array
in_udf = udf(lambda x: 
    x[0:len(x)-1] if x and len(x) > 1 
    else [], 
    ArrayType(StringType()))

Formaat van sparse vector

Indexen
Waarden

Voorbeeld:

Array: [1.0, 0.0, 0.0, 3.0]
Sparse vector: (4, [0, 3], [1.0, 3.0])

Werken met vectordata

hasattr(x, "toArray")
x.numNonzeros())

Laten we oefenen!

Introductie tot Spark SQL in Python