Pembersihan data
Konsep Data Warehousing
Aaren Stubberfield
Data Scientist
Agenda video
Revisi format data
Parsing alamat
Validasi data
De-duplikasi
Pembersihan format data
Perbarui nilai ke format yang diharapkan
Tanggal
Nama opsi
Kapitalisasi
Memastikan keluaran konsisten
Contoh data taksi
Parsing alamat
Memecah alamat jalan menjadi komponennya
Dapat menggunakan alat untuk memvalidasi alamat
Alamat
1234 S Normal St, Cleveland, OH 44102
Alamat
Kota
Negara Bagian
Kode Pos
1234 S Normal St
Cleveland
OH
44102
Validasi data
Pemeriksaan rentang
Apakah nilainya dalam rentang yang diharapkan?
Contoh: Usia seseorang
Pemeriksaan tipe
Apakah nilainya bertipe data yang benar?
Contoh: Menyimpan usia sebagai string vs angka
Penghapusan baris duplikat
Proses ini menghapus entri duplikat
Tata kelola data
Ayo berlatih!
Konsep Data Warehousing
Preparing Video For Download...