Informazione e importanza delle feature

Riduzione della dimensionalità in R

Matt Pickard

Owner, Pickard Predictives, LLC

Citazione sul guadagno di informazione

1 Provost, Foster; Fawcett, Tom (2013-07-27). Data Science for Business: What you need to know about data mining and data-analytic thinking. O'Reilly Media. Kindle Edition.
Riduzione della dimensionalità in R

Importanza delle feature

Importanza delle feature: misura dell'informazione nella costruzione del modello

Illustrazione predittori-target-modello

Modi per misurare l'importanza

  • Correlazione (con la variabile target)
  • Coefficienti di regressione standardizzati
  • Guadagno d'informazione
Riduzione della dimensionalità in R

Esempio di albero decisionale

Osservazioni di default sui prestiti con shape, color, outline e texture

Riduzione della dimensionalità in R

Alberi decisionali e guadagno d'informazione

Guadagno d'informazione: quanta informazione otteniamo su una variabile osservandone un'altra

Equazione del guadagno d'informazione

set suddiviso da una feature

Riduzione della dimensionalità in R

Entropia

  • Misura del disordine
  • Più purezza, meno entropia
  • Entropia da 0 (pura) a 1 (massima)

Grafico dell'entropia

Riduzione della dimensionalità in R

Entropia: nodo radice

Equazione dell'entropia

p_yes <- 7/16

p_no <- 9/16
entropy_root <- -(p_yes * log2(p_yes)) + -(p_no * log2(p_no))
entropy_root
0.989

Osservazioni nel nodo radice

Riduzione della dimensionalità in R

Entropia: nodi figli

p_left_yes <- 2/9

p_left_no <- 7/9
entropy_left <- -(p_left_yes * log2(p_left_yes)) + -(p_left_no * log2(p_left_no))

Split dell'albero decisionale dal nodo radice al primo livello

Riduzione della dimensionalità in R

Entropia: nodi figli

p_left_yes <- 2/9 

p_left_no <- 7/9
entropy_left <- -(p_left_yes * log2(p_left_yes)) + -(p_left_no * log2(p_left_no))
entropy_left
0.764

Split dell'albero decisionale dal nodo radice al primo livello

Riduzione della dimensionalità in R

Entropia: nodi figli

p_right_yes <- 5/7

p_right_no <- 2/7
entropy_right <- -(p_right_yes * log2(p_right_yes)) + -(p_right_no * log2(p_right_no))

Split dell'albero decisionale dal nodo radice al primo livello

Riduzione della dimensionalità in R

Entropia: nodi figli

p_right_yes <- 5/7 

p_right_no <- 2/7
entropy_right <- -(p_right_yes * log2(p_right_yes)) + -(p_right_no * log2(p_right_no))
entropy_right
0.863 

Split dell'albero decisionale dal nodo radice al primo livello

Riduzione della dimensionalità in R

Guadagno d'informazione: dalla radice ai figli

p_left <- 9/16

p_right <- 7/16
info_gain <- entropy_root - (p_left * entropy_left + p_right * entropy_right)
info_gain
0.181

Split dell'albero decisionale dal nodo radice al primo livello

Riduzione della dimensionalità in R

Confronta il guadagno tra feature

Feature Information Gain
shape 0.181
texture 0.180
outline 0.106
color 0.106

Albero decisionale con punto interrogativo allo split

Riduzione della dimensionalità in R

Passiamo alla pratica !

Riduzione della dimensionalità in R

Preparing Video For Download...