Transformasi

Pengantar Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Jenis transformasi

customer_id	email	state	created_at
1	[email protected]	New York	2019-01-01 07:00:00

Pemilihan atribut (mis. 'email')
Translasi nilai kode (mis. 'New York' -> 'NY')
Validasi data (mis. input tanggal di 'created_at')
Memecah kolom menjadi beberapa kolom
Menggabungkan dari banyak sumber

Contoh: split (Pandas)

customer_id	email	username	domain
1	[email protected]	jane.doe	theweb.com

customer_df # Pandas DataFrame dengan data pelanggan

# Bagi kolom email menjadi 2 kolom pada simbol '@'
split_email = customer_df.email.str.split("@", expand=True)

# Pada tahap ini, split_email memiliki 2 kolom:
# pertama berisi sebelum @, kedua sesudah @
# Buat 2 kolom baru dari DataFrame hasilnya.

customer_df = customer_df.assign(
  username=split_email[0],
  domain=split_email[1],
)

Transformasi di PySpark

Ekstrak data ke PySpark

import pyspark.sql

spark = pyspark.sql.SparkSession.builder.getOrCreate()


spark.read.jdbc("jdbc:postgresql://localhost:5432/pagila",

                "customer",

                properties={"user":"repl","password":"password"})

Contoh: join

Tabel rating baru

customer_id	film_id	rating
1	2	1
2	1	5
2	2	3
...	...	...

Tabel customer

customer_id	first_name	last_name	...
1	Jane	Doe	...
2	Joe	Doe	...
...	...	...	...

customer_id sama dengan di tabel rating

Contoh: join (PySpark)

customer_df # PySpark DataFrame dengan data pelanggan
ratings_df # PySpark DataFrame dengan data rating


# Groupby rating
ratings_per_customer = ratings_df.groupBy("customer_id").mean("rating")


# Join pada ID pelanggan
customer_df.join(
  ratings_per_customer,
  customer_df.customer_id==ratings_per_customer.customer_id
)

Ayo berlatih!

Pengantar Data Engineering