Informatie en feature-importance

Dimensionality Reduction in R

Matt Pickard

Owner, Pickard Predictives, LLC

Citaat over information gain

¹ Provost, Foster; Fawcett, Tom (2013-07-27). Data Science for Business: What you need to know about data mining and data-analytic thinking. O'Reilly Media. Kindle Edition.

Feature-importance

Feature-importance: een maat voor informatie bij modelbouw

Illustratie: predictor–target–model

Meerdere manieren om feature-importance te meten

Correlatie (met targetvariabele)
Gestandaardiseerde regressiecoëfficiënten
Information gain

Voorbeeld van een beslissingsboom

Een set observaties van wanbetalingen met kenmerken shape, color, outline en texture

Beslissingsboom en information gain

Information gain: hoeveel we over de ene variabele weten door de andere te observeren

Formule voor information gain

set gesplitst op een feature

Entropie

Een maat voor wanorde
Hoe zuiverder, hoe lager de entropie
Entropie loopt van 0 (perfecte zuiverheid) tot 1 (maximale entropie)

Entropiegrafiek

Entropie: rootnode

Entropieformule

p_yes <- 7/16

p_no <- 9/16

entropy_root <- 
  -(p_yes * log2(p_yes)) + 
  -(p_no * log2(p_no))

entropy_root

0.989

Afbeelding van observaties in de rootnode