Transformeren

Introductie tot Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Soorten transformaties

customer_id email state created_at
1 [email protected] New York 2019-01-01 07:00:00

 

  • Attribuutselectie (bijv. 'email')
  • Vertaling van codewaarden (bijv. 'New York' -> 'NY')
  • Datavalidatie (bijv. datuminput in 'created_at')
  • Kolommen splitsen in meerdere kolommen
  • Joinen uit meerdere bronnen
Introductie tot Data Engineering

Voorbeeld: split (Pandas)

customer_id email username domain
1 [email protected] jane.doe theweb.com
customer_df # Pandas DataFrame met klantgegevens

# Splits de e-mailkolom in 2 kolommen op het '@'-teken
split_email = customer_df.email.str.split("@", expand=True)

# Op dit punt heeft split_email 2 kolommen: de eerste # met alles vóór @, de tweede met alles na @ # Maak 2 nieuwe kolommen met de resulterende DataFrame. customer_df = customer_df.assign( username=split_email[0], domain=split_email[1], )
Introductie tot Data Engineering

Transformeren in PySpark

Data extraheren naar PySpark

import pyspark.sql

spark = pyspark.sql.SparkSession.builder.getOrCreate()

spark.read.jdbc("jdbc:postgresql://localhost:5432/pagila",
"customer",
properties={"user":"repl","password":"password"})
Introductie tot Data Engineering

Voorbeeld: join

Een nieuwe ratings-tabel

customer_id film_id rating
1 2 1
2 1 5
2 2 3
... ... ...

De klanttabel

customer_id first_name last_name ...
1 Jane Doe ...
2 Joe Doe ...
... ... ... ...

 

customer_id overlapt met ratings-tabel

Introductie tot Data Engineering

Voorbeeld: join (PySpark)

customer_df # PySpark DataFrame met klantgegevens
ratings_df # PySpark DataFrame met waarderingsgegevens

# Groepeer waarderingen ratings_per_customer = ratings_df.groupBy("customer_id").mean("rating")
# Join op customer ID customer_df.join( ratings_per_customer, customer_df.customer_id==ratings_per_customer.customer_id )
Introductie tot Data Engineering

Laten we oefenen!

Introductie tot Data Engineering

Preparing Video For Download...