Alles samenvoegen met ensembling

Ensemblemethoden in Python

Román de las Heras

Data Scientist, Appodeal

Hoofdstuk 1: Voting en Averaging

Voting

  • Combinatie: modus (meerderheid)
  • Classificatie
  • Heterogene ensemblemethode

Averaging

  • Combinatie: gemiddelde
  • Classificatie en regressie
  • Heterogene ensemblemethode

Goede keuzes als je:

  • Meerdere verschillende modellen hebt gebouwd
  • Niet zeker weet welke het beste is
  • De algehele performance wilt verbeteren
Ensemblemethoden in Python

Hoofdstuk 2: Bagging

Zwakke estimator

  • Presteert net beter dan gokken
  • Licht en snel model
  • Basis voor homogene ensemblemethoden

Bagging (Bootstrap Aggregating)

  • Willekeurige deelsteekproeven met terugleggen
  • Grote hoeveelheid “zwakke” estimators
  • Geaggregeerd via Voting of Averaging
  • Homogene ensemblemethode

Goede keuze als je:

  • Variantie wilt verlagen
  • Overfitting wilt vermijden
  • Meer stabiliteit en robuustheid nodig hebt

Opmerking:

  • Bagging is rekenintensief
Ensemblemethoden in Python

Hoofdstuk 3: Boosting

Gradueel leren

  • Type homogene ensemblemethode
  • Gebaseerd op iteratief leren
  • Sequentiële modelopbouw

Boosting-algoritmen

  • AdaBoost
  • Gradient Boosting:
    • XGBoost
    • LightGBM
    • CatBoost

Goede keuze als je:

  • Complexe problemen hebt
  • Parallelle verwerking of distributed computing wilt toepassen
  • Grote datasets of hoog-dimensionale categorische features hebt
Ensemblemethoden in Python

Hoofdstuk 4: Stacking

Stacking

  • Combinatie: meta-estimator (model)
  • Classificatie en regressie
  • Heterogene ensemblemethode

Implementatie

  • Vanaf nul met pandas en sklearn
  • Met de bestaande MLxtend-bibliotheek

Goede keuze als je:

  • Al Voting/Averaging hebt geprobeerd maar de resultaten tegenvallen
  • Modellen hebt die in verschillende gevallen goed presteren
Ensemblemethoden in Python

Bedankt en goed ge-ensembled!

Ensemblemethoden in Python

Preparing Video For Download...