Bootstrap-aggregatie

Ensemblemethoden in Python

Román de las Heras

Data Scientist, Appodeal

Heterogene vs. homogene ensembles

Heterogeen:

  • Verschillende algoritmen (fijn-afgesteld)
  • Weinig schatters
  • Voting, Averaging en Stacking

Homogeen:

  • Zelfde algoritme ("zwak" model)
  • Veel schatters
  • Bagging en Boosting
Ensemblemethoden in Python

Condorcets jurysstelling

Vereisten:

  • Modellen zijn onafhankelijk
  • Elk model presteert beter dan gokken
  • Alle modellen hebben vergelijkbare prestaties

Conclusie: Meer modellen verbetert de ensembleprestatie (Voting of Averaging) en benadert 1 (100%)

Condorcet Marquis de Condorcet, Franse filosoof en wiskundige

Ensemblemethoden in Python

Bootstrappen

Bootstrappen vereist:

  • Willekeurige deelsteekproeven
  • Met teruglegging

Bootstrappen garandeert:

  • Divers publiek: verschillende datasets
  • Onafhankelijk: apart bemonsterd

Bagging.png

Ensemblemethoden in Python

Voor- en nadelen van bagging

Voordelen

  • Bagging verlaagt vaak de variantie
  • Overfitting kan door het ensemble zelf worden voorkomen
  • Meer stabiliteit en robuustheid

Nadelen

  • Rekenintensief
Ensemblemethoden in Python

Laten we oefenen!

Ensemblemethoden in Python

Preparing Video For Download...