Masalah data umum

Pengantar Literasi Data

Jess Ahmet

Content Developer, DataCamp

Data kotor

  • Data kotor adalah:

    • Tidak benar
    • Tidak lengkap
    • Tidak konsisten
  • Disebabkan oleh kesalahan manusia, masalah teknis, atau proses pengumpulan data

  • Prinsip garbage in, garbage out: data kotor dapat menghasilkan kesimpulan yang salah

Jendela kotor

Pengantar Literasi Data

Kesalahan data

  • Data tidak benar atau tidak konsisten
  • Biasanya akibat kesalahan manusia atau teknis saat merekam nilai atau format
  • Teknik penanggulangan:
    • Jika nilai asli atau format valid diketahui: perbaiki data
    • Jika tidak diketahui: hapus data

Teka-teki dengan kepingan yang salah

Pengantar Literasi Data

Data hilang

  • Data tidak lengkap
  • Bermasalah jika:
    • Banyak titik data hilang
    • Ada pola tersembunyi dalam data yang hilang
  • Teknik penanggulangan:
    • Menghapus data
    • Imputasi

Teka-teki dengan kepingan hilang

Pengantar Literasi Data

Bias data

  • Bias sosial tercermin sebagai bias data
  • Menyebabkan data dan hasil tidak representatif
  • Sulit dideteksi dan diatasi
  • Teknik penanggulangan:
    • Proses pengumpulan data yang baik
    • Kesadaran saat menyimpulkan
    • Model AI yang dapat dijelaskan

Teka-teki abu-abu dengan kepingan putih yang hilang

Pengantar Literasi Data

Pembersihan data

  • Kumpulan teknik untuk mengatasi masalah data
  • Langkah persiapan penting untuk analisis data apa pun
  • Tidak semua masalah data dapat (sepenuhnya) diselesaikan
  • Selalu mungkin melakukan suatu analisis

Tangan ber-sarung memegang botol semprot

Pengantar Literasi Data

Ayo berlatih!

Pengantar Literasi Data

Preparing Video For Download...