Informatie en feature-importance

Dimensionality Reduction in R

Matt Pickard

Owner, Pickard Predictives, LLC

Citaat over information gain

1 Provost, Foster; Fawcett, Tom (2013-07-27). Data Science for Business: What you need to know about data mining and data-analytic thinking. O'Reilly Media. Kindle Edition.
Dimensionality Reduction in R

Feature-importance

Feature-importance: een maat voor informatie bij modelbouw

Illustratie: predictor–target–model

Meerdere manieren om feature-importance te meten

  • Correlatie (met targetvariabele)
  • Gestandaardiseerde regressiecoëfficiënten
  • Information gain
Dimensionality Reduction in R

Voorbeeld van een beslissingsboom

Een set observaties van wanbetalingen met kenmerken shape, color, outline en texture

Dimensionality Reduction in R

Beslissingsboom en information gain

Information gain: hoeveel we over de ene variabele weten door de andere te observeren

Formule voor information gain

set gesplitst op een feature

Dimensionality Reduction in R

Entropie

  • Een maat voor wanorde
  • Hoe zuiverder, hoe lager de entropie
  • Entropie loopt van 0 (perfecte zuiverheid) tot 1 (maximale entropie)

Entropiegrafiek

Dimensionality Reduction in R

Entropie: rootnode

Entropieformule

p_yes <- 7/16

p_no <- 9/16
entropy_root <- -(p_yes * log2(p_yes)) + -(p_no * log2(p_no))
entropy_root
0.989

Afbeelding van observaties in de rootnode

Dimensionality Reduction in R

Entropie: kindknopen

p_left_yes <- 2/9

p_left_no <- 7/9
entropy_left <- -(p_left_yes * log2(p_left_yes)) + -(p_left_no * log2(p_left_no))

Beslissingsboom-split om eerste niveau vanaf root te maken

Dimensionality Reduction in R

Entropie: kindknopen

p_left_yes <- 2/9 

p_left_no <- 7/9
entropy_left <- -(p_left_yes * log2(p_left_yes)) + -(p_left_no * log2(p_left_no))
entropy_left
0.764

Beslissingsboom-split om eerste niveau vanaf root te maken

Dimensionality Reduction in R

Entropie: kindknopen

p_right_yes <- 5/7

p_right_no <- 2/7
entropy_right <- -(p_right_yes * log2(p_right_yes)) + -(p_right_no * log2(p_right_no))

Beslissingsboom-split om eerste niveau vanaf root te maken

Dimensionality Reduction in R

Entropie: kindknopen

p_right_yes <- 5/7 

p_right_no <- 2/7
entropy_right <- -(p_right_yes * log2(p_right_yes)) + -(p_right_no * log2(p_right_no))
entropy_right
0.863 

Beslissingsboom-split om eerste niveau vanaf root te maken

Dimensionality Reduction in R

Information gain: van root naar kinderen

p_left <- 9/16

p_right <- 7/16
info_gain <- entropy_root - (p_left * entropy_left + p_right * entropy_right)
info_gain
0.181

Beslissingsboom-split om eerste niveau vanaf root te maken

Dimensionality Reduction in R

Vergelijk information gain per feature

Feature Information gain
shape 0.181
texture 0.180
outline 0.106
color 0.106

Beslissingsboom met vraagteken bij split

Dimensionality Reduction in R

Laten we oefenen!

Dimensionality Reduction in R

Preparing Video For Download...