Informazione e importanza delle feature

Riduzione della dimensionalità in R

Matt Pickard

Owner, Pickard Predictives, LLC

Citazione sul guadagno di informazione

¹ Provost, Foster; Fawcett, Tom (2013-07-27). Data Science for Business: What you need to know about data mining and data-analytic thinking. O'Reilly Media. Kindle Edition.

Importanza delle feature

Importanza delle feature: misura dell'informazione nella costruzione del modello

Illustrazione predittori-target-modello

Modi per misurare l'importanza

Correlazione (con la variabile target)
Coefficienti di regressione standardizzati
Guadagno d'informazione

Esempio di albero decisionale

Osservazioni di default sui prestiti con shape, color, outline e texture

Alberi decisionali e guadagno d'informazione

Guadagno d'informazione: quanta informazione otteniamo su una variabile osservandone un'altra

Equazione del guadagno d'informazione

set suddiviso da una feature

Entropia

Misura del disordine
Più purezza, meno entropia
Entropia da 0 (pura) a 1 (massima)

Grafico dell'entropia

Entropia: nodo radice

Equazione dell'entropia

p_yes <- 7/16

p_no <- 9/16

entropy_root <- 
  -(p_yes * log2(p_yes)) + 
  -(p_no * log2(p_no))

entropy_root

0.989

Osservazioni nel nodo radice