Apa itu exploratory data analysis?

Analisis Data Eksploratori di Power BI

Jacob H. Marquez

Data Scientist at Microsoft

Apa itu exploratory data analysis?

"Pendekatan menganalisis kumpulan data untuk merangkum karakteristik utamanya, sering menggunakan grafik statistik dan metode visualisasi data lainnya."

1 https://en.wikipedia.org/wiki/Exploratory_data_analysis
Analisis Data Eksploratori di Power BI

Enam langkah EDA

  1. Memahami struktur data

  2. Mengidentifikasi data hilang

  3. Mendeskripsikan data dengan statistik deskriptif & distribusi

  4. Mengidentifikasi pencilan

  5. Mengkaji dan mengukur hubungan antarvariabel

  6. Membentuk hipotesis

Analisis Data Eksploratori di Power BI

Enam langkah EDA

  1. Memahami struktur data

  2. Mengidentifikasi data hilang

  3. Mendeskripsikan data dengan statistik deskriptif & distribusi

  4. Mengidentifikasi pencilan

  5. Mengkaji dan mengukur hubungan antarvariabel

  6. Membentuk hipotesis

Analisis Data Eksploratori di Power BI

1. Memahami struktur data

Kontinu

Variabel numerik yang sering dapat mengambil himpunan nilai tak hingga

  • Jumlah bintang di angkasa
  • Click-through rate
  • Jarak antar dua kota

Kategorikal

Variabel non-numerik, biasanya teks, dengan dua atau lebih grup

  • Tipe rumah
  • Negara
  • Perusahaan
Analisis Data Eksploratori di Power BI

2. Mengidentifikasi data hilang

 

Hilang acak (MAR)

Matriks 9×4 dengan tiga set tiga baris untuk tiga kota: Seattle, New York City, dan Paris. Ada nilai curah hujan (inci) di 30 sel dan 6 sel kosong secara acak di ketiga grup kota.

 

Hilang tidak acak (MNAR)

Matriks 9×4 dengan tiga set tiga baris untuk tiga kota: Seattle, New York City, dan Paris. Ada nilai curah hujan (inci) di 30 sel dan 4 sel kosong secara acak hanya pada Seattle.

Analisis Data Eksploratori di Power BI

2. Menangani data hilang

 

Matriks 9×4 dengan tiga set tiga baris untuk tiga kota: Seattle, New York City, dan Paris. Ada nilai curah hujan (inci) di 30 sel dan 4 sel kosong secara acak hanya pada Seattle.

Matriks 9×4 yang sama tetapi baris teratas dihapus, mewakili penghapusan sel kosong dari matriks.

Matriks 9×4 yang sama tetapi baris teratas kini berisi nilai, mewakili imputasi sel kosong dengan nilai median.

Analisis Data Eksploratori di Power BI

3. Mendeskripsikan data

  • Minimum
  • Maksimum
  • Mean: jumlah semua nilai dibagi jumlah observasi
  • Median: nilai di tengah rentang
  • Simpangan baku: rata-rata selisih dari mean pada semua titik data
Analisis Data Eksploratori di Power BI

3. Deskripsikan data dengan distribusi

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah observasi di sumbu y.

  • Median dan mean sama
  • Kurva simetris
Analisis Data Eksploratori di Power BI

3. Mendeskripsikan data dengan distribusi

Histogram pendapatan rumah tangga dengan nilai pendapatan di sumbu x dan jumlah observasi di sumbu y. Histogram lebar di kiri dan makin sempit ke kanan.

  • Median < Mean
  • "Miring kanan": ekor di kanan

Histogram waktu online dengan nilai durasi di sumbu x dan jumlah observasi di sumbu y. Histogram sempit di kiri dan makin lebar ke kanan.

  • Median > Mean
  • "Miring kiri": ekor di kiri
Analisis Data Eksploratori di Power BI

Dataset: daftar Airbnb

Gambar dataset Airbnb dengan lima kolom: listing_id, host_id, host_since (kolom tanggal), city, dan price.

Analisis Data Eksploratori di Power BI

Ayo berlatih!

Analisis Data Eksploratori di Power BI

Preparing Video For Download...