Pembersihan data

Konsep Data Warehousing

Aaren Stubberfield

Data Scientist

Agenda video

  • Revisi format data
  • Parsing alamat
  • Validasi data
  • De-duplikasi
Konsep Data Warehousing

Pembersihan format data

  • Perbarui nilai ke format yang diharapkan
    • Tanggal
    • Nama opsi
    • Kapitalisasi
  • Memastikan keluaran konsisten

Contoh data taksi

Dua tabel digabung menjadi satu

Konsep Data Warehousing

Parsing alamat

  • Memecah alamat jalan menjadi komponennya
  • Dapat menggunakan alat untuk memvalidasi alamat
Alamat
1234 S Normal St, Cleveland, OH 44102
Alamat Kota Negara Bagian Kode Pos
1234 S Normal St Cleveland OH 44102
Konsep Data Warehousing

Validasi data

  • Pemeriksaan rentang
    • Apakah nilainya dalam rentang yang diharapkan?
    • Contoh: Usia seseorang
  • Pemeriksaan tipe
    • Apakah nilainya bertipe data yang benar?
    • Contoh: Menyimpan usia sebagai string vs angka

Tabel Age dengan baris pertama 300, ditandai tidak valid.

Tabel tiga kolom dengan Age sebagai kolom pertama bertipe string, ditandai tidak valid.

Konsep Data Warehousing

Penghapusan baris duplikat

  • Proses ini menghapus entri duplikat

gambar dua tabel dengan dua kolom yang akan digabung

tabel akhir yang sudah digabung tanpa baris duplikat

Konsep Data Warehousing

Tata kelola data

Ilustrasi kepatuhan regulasi

Konsep Data Warehousing

Ayo berlatih!

Konsep Data Warehousing

Preparing Video For Download...