Distribusi dan pencilan

Analisis Data Eksploratori di Power BI

Jacob H. Marquez

Data Scientist at Microsoft

Apa itu distribusi?

Definisi: sekumpulan semua nilai yang mungkin dari variabel dan frekuensi terkait.

Analisis Data Eksploratori di Power BI

Apa itu distribusi?

Kontinu

Usia Frekuensi
18 7
19 11
20 13
21 19
22 12
Analisis Data Eksploratori di Power BI

Apa itu distribusi?

Kontinu

Usia Frekuensi
18 7
19 11
20 13
21 19
22 12

Kategorikal

Warna Rambut Frekuensi
Pirang 30
Cokelat 50
Hitam 40
Merah 20
Abu-abu 20
Analisis Data Eksploratori di Power BI

Apa itu histogram?

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Histogram berekor sempit di kedua sisi dengan massa besar di tengah.

Analisis Data Eksploratori di Power BI

Apa itu histogram? - bin

Histogram dengan 100 bin

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Histogram lebih halus dan detail dengan 100 bin.

Histogram dengan 20 bin

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Histogram lebih kaku dan kotak dengan lebih sedikit bin.

Analisis Data Eksploratori di Power BI

Membaca histogram - sentralitas dan kemencengan

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Massa pengamatan besar di tengah dan lebih sedikit di tepi.

Distribusi normal

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Massa pengamatan besar di kiri dan makin menyempit ke kanan.

Distribusi menceng ke kanan

Analisis Data Eksploratori di Power BI

Membaca histogram - sebaran

Simpangan baku lebih besar

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Massa pengamatan besar di tengah dan lebih sedikit di tepi.

Simpangan baku lebih kecil

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Lebih sempit, hampir seperti menara, karena simpangan baku kecil.

Analisis Data Eksploratori di Power BI

Membaca histogram - persentil

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Area hijau dari tengah ke kiri mewakili persentil ke-50.

Analisis Data Eksploratori di Power BI

Membaca histogram - persentil ke-25 & ke-75

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Ada dua area hijau: dari persentil ke-25 ke kiri dan dari persentil ke-75 ke kanan.

Analisis Data Eksploratori di Power BI

Membaca histogram - rentang antar kuartil

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Area hijau dari persentil ke-25 hingga ke-75 mewakili rentang antar kuartil.

Analisis Data Eksploratori di Power BI

Apa itu pencilan?

Histogram tinggi badan dengan nilai tinggi di sumbu x dan jumlah pengamatan di sumbu y. Area hijau di kedua ujung menyoroti kemungkinan pencilan.

Analisis Data Eksploratori di Power BI

Menemukan pencilan

Menggunakan simpangan baku

$lower = -3 * SD$

$upper = 3 * SD$

$$

Pencilan jika

$value < lower$ ATAU $value > upper$

Rentang antar kuartil (IQR)

$lower = 25percentile-(1.5 * IQR)$

$upper = 75percentile+(1.5 * IQR)$

$$

Pencilan jika

$value < lower$ ATAU $value > upper$

Analisis Data Eksploratori di Power BI

Menangani pencilan

  1. Hapus observasi
  2. Imputasi

Winsorizing

JIKA value < persentil ke-5 MAKA value = persentil ke-5

$$

JIKA value > persentil ke-95 MAKA value = persentil ke-95

Analisis Data Eksploratori di Power BI

Ayo berlatih!

Analisis Data Eksploratori di Power BI

Preparing Video For Download...