Informasi dan pentingnya fitur

Reduksi Dimensi di R

Matt Pickard

Owner, Pickard Predictives, LLC

Kutipan tentang information gain

1 Provost, Foster; Fawcett, Tom (2013-07-27). Data Science for Business: What you need to know about data mining and data-analytic thinking. O'Reilly Media. Kindle Edition.
Reduksi Dimensi di R

Pentingnya fitur

Pentingnya fitur: ukuran informasi dalam pemodelan

Ilustrasi prediktor, target, dan model

Banyak cara mengukur pentingnya fitur

  • Korelasi (dengan variabel target)
  • Koefisien regresi terseragamkan
  • Information gain
Reduksi Dimensi di R

Contoh pohon keputusan

Kumpulan observasi gagal bayar dengan karakteristik shape, color, outline, dan texture

Reduksi Dimensi di R

Pohon keputusan dan information gain

Information gain: seberapa banyak informasi tentang satu variabel yang kita ketahui dari mengamati variabel lain

Persamaan information gain

himpunan dibagi oleh suatu fitur

Reduksi Dimensi di R

Entropi

  • Ukuran ketidakaturan
  • Semakin tinggi kemurnian, semakin rendah entropi
  • Nilai entropi 0 (murni sempurna) hingga 1 (entropi sempurna)

Grafik entropi

Reduksi Dimensi di R

Entropi: node akar

Persamaan entropi

p_yes <- 7/16

p_no <- 9/16
entropy_root <- -(p_yes * log2(p_yes)) + -(p_no * log2(p_no))
entropy_root
0.989

Gambar observasi di node akar

Reduksi Dimensi di R

Entropi: node anak

p_left_yes <- 2/9

p_left_no <- 7/9
entropy_left <- -(p_left_yes * log2(p_left_yes)) + -(p_left_no * log2(p_left_no))

Pemisahan pohon keputusan membentuk level pertama dari akar

Reduksi Dimensi di R

Entropi: node anak

p_left_yes <- 2/9 

p_left_no <- 7/9
entropy_left <- -(p_left_yes * log2(p_left_yes)) + -(p_left_no * log2(p_left_no))
entropy_left
0.764

Pemisahan pohon keputusan membentuk level pertama dari akar

Reduksi Dimensi di R

Entropi: node anak

p_right_yes <- 5/7

p_right_no <- 2/7
entropy_right <- -(p_right_yes * log2(p_right_yes)) + -(p_right_no * log2(p_right_no))

Pemisahan pohon keputusan membentuk level pertama dari akar

Reduksi Dimensi di R

Entropi: node anak

p_right_yes <- 5/7 

p_right_no <- 2/7
entropy_right <- -(p_right_yes * log2(p_right_yes)) + -(p_right_no * log2(p_right_no))
entropy_right
0.863 

Pemisahan pohon keputusan membentuk level pertama dari akar

Reduksi Dimensi di R

Information gain: akar ke anak

p_left <- 9/16

p_right <- 7/16
info_gain <- entropy_root - (p_left * entropy_left + p_right * entropy_right)
info_gain
0.181

Pemisahan pohon keputusan membentuk level pertama dari akar

Reduksi Dimensi di R

Bandingkan information gain antar fitur

Fitur Information Gain
shape 0.181
texture 0.180
outline 0.106
color 0.106

Pohon keputusan dengan tanda tanya di pemisahan

Reduksi Dimensi di R

Ayo berlatih!

Reduksi Dimensi di R

Preparing Video For Download...