Pembersihan dan Penyaringan Data

Transformasi dan Analisis Data dengan Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

Alat pembersihan data

 

 

Ikon mewakili tiga alat: SQL, Spark, dan Dataflows

Transformasi dan Analisis Data dengan Microsoft Fabric

Menangani baris kosong

  • Hapus baris saat seluruh baris kosong

 

Diagram menunjukkan tabel dengan beberapa baris kosong diubah menjadi tabel tanpa baris kosong

Transformasi dan Analisis Data dengan Microsoft Fabric

Menangani baris kosong dengan Dataflows

  • Transformasi Remove blank rows

 

Tangkapan layar menu Remove rows di Dataflow, menyorot opsi remove blank rows, dengan contoh tabel sebelum dan sesudah menghapus baris

Transformasi dan Analisis Data dengan Microsoft Fabric

Menangani baris kosong dengan Spark

  • Fungsi DataFrame dropna( )
  • Dapat menghapus baris dengan nilai null apa pun, atau semua nilai null

Contoh tabel sebelum dan sesudah menghapus baris menggunakan dua variasi fungsi dropna

Transformasi dan Analisis Data dengan Microsoft Fabric

Menangani baris duplikat

  • Hapus baris duplikat

 

Diagram menunjukkan tabel dengan baris duplikat diubah menjadi tabel di mana salah satu catatan duplikat dihapus

Transformasi dan Analisis Data dengan Microsoft Fabric

Menangani baris duplikat dengan Dataflows

  • Transformasi Remove duplicates

 

Tangkapan layar menu Remove rows di Dataflow, menyorot opsi remove duplicates, dengan contoh tabel sebelum dan sesudah menghapus baris

Transformasi dan Analisis Data dengan Microsoft Fabric

Menangani baris duplikat dengan Spark

  • Fungsi DataFrame dropDuplicates( )

 

Diagram menunjukkan tabel dengan baris duplikat diubah menjadi tabel di mana salah satu catatan duplikat dihapus setelah memanggil fungsi dataframe dropDuplicates

Transformasi dan Analisis Data dengan Microsoft Fabric

Mengganti nilai

  • Ganti kemunculan nilai tertentu di kolom dengan nilai lain.
  • Dapat juga mengganti sel kosong dengan nilai.

 

Diagram menunjukkan nilai ABC pada beberapa entri diganti dengan nilai XYA.

Transformasi dan Analisis Data dengan Microsoft Fabric

Mengganti nilai dengan Dataflows

  • Transformasi Replace values

 

Tangkapan layar opsi transformasi Replace values di Dataflow, dengan contoh tabel sebelum dan sesudah mengubah nilai kosong menjadi string '(Unknown)'

Transformasi dan Analisis Data dengan Microsoft Fabric

Mengganti nilai dengan Spark

  • Fungsi DataFrame replace( )

 

Diagram menunjukkan nilai N/A pada beberapa catatan diganti menjadi string 'Unknown' setelah memanggil fungsi PySpark replace

Transformasi dan Analisis Data dengan Microsoft Fabric

Mengoreksi tipe data

  • Konsistensi tipe data di seluruh model
  • Mendukung perbandingan nilai

Gambar mewakili kolom data yang menyimpan angka sebagai teks dikonversi menjadi angka sebenarnya

Transformasi dan Analisis Data dengan Microsoft Fabric

Mengoreksi tipe data

  • Konsistensi tipe data di seluruh model.
  • Mendukung perbandingan nilai.
  • Mendukung operasi khusus tipe data.
    • Operasi aritmetika pada kolom numerik.
    • Operasi tanggal/waktu pada kolom tanggal/waktu.

Contoh beberapa transformasi pada kolom teks, seperti lowercase, uppercase, dan trim, serta transformasi pada kolom numerik, seperti sum dan maximum

Transformasi dan Analisis Data dengan Microsoft Fabric

Mengoreksi tipe data dengan Dataflows

  • Menu kontekstual (opsi 1):
    1. Pilih kolom di tampilan data.
    2. Klik ikon di sisi kiri header kolom.

Tangkapan layar menyorot ikon di sisi kiri header kolom yang memberi akses ke menu konteks Change type

Transformasi dan Analisis Data dengan Microsoft Fabric

Mengoreksi tipe data dengan Dataflows

  • Menu kontekstual (opsi 1):
    1. Pilih kolom di tampilan data.
    2. Klik ikon di sisi kiri header kolom.
    3. Pilih tipe data baru dari daftar.

Tangkapan layar menu konteks Change type saat mengklik tipe data di header kolom pada tampilan data

Transformasi dan Analisis Data dengan Microsoft Fabric

Mengoreksi tipe data dengan Dataflows

  • Menu kontekstual (opsi 2):
    1. Pilih kolom di tampilan data.
    2. Klik kanan header kolom.

Tangkapan layar menyorot header kolom yang ingin kita ubah tipe datanya

Transformasi dan Analisis Data dengan Microsoft Fabric

Mengoreksi tipe data dengan Dataflows

  • Tambah Transform:
    1. Pilih kolom di tampilan data.
    2. Tambahkan transformasi dengan klik (+) di tampilan diagram.
    3. Klik Change type dari menu pop-up dan pilih tipe data baru.

Tangkapan layar menampilkan kueri saat transformasi Change Type ditambahkan

Transformasi dan Analisis Data dengan Microsoft Fabric

Mengoreksi tipe data dengan Spark

  • Fungsi DataFrame cast( )
df.withColumn("new_column_name", df["column_name"].cast("new_data_type"))
  • Contoh:
# Ubah kolom [orderID] menjadi integer
df = df.withColumn("orderID", df["orderID"].cast("integer"))
Transformasi dan Analisis Data dengan Microsoft Fabric

Penyaringan data

  • Sertakan atau kecualikan baris berdasarkan kondisi.
SELECT
  OrderID, State, Date, Amount
FROM
  Orders 
WHERE
  State = 'NY'

Diagram yang menunjukkan tabel memfilter baris yang bukan dari negara bagian NY

Transformasi dan Analisis Data dengan Microsoft Fabric

Penyaringan data dengan Dataflows

  • Gunakan transformasi Filter

Tangkapan layar transformasi filter diterapkan pada kolom

Transformasi dan Analisis Data dengan Microsoft Fabric

Penyaringan data dengan Spark

  • Fungsi DataFrame filter( )
  • where( ) adalah alias untuk filter( )
df.filter( <condition> )
  • Contoh:
# Kembalikan hanya baris DataFrame saat State = 'NY'
df.filter( df.state == 'NY' )
Transformasi dan Analisis Data dengan Microsoft Fabric

Ayo berlatih!

Transformasi dan Analisis Data dengan Microsoft Fabric

Preparing Video For Download...