Modelgeneralisatie: bootstrapping en cross-validatie

Machine Learning-sollicitatievragen oefenen in Python

Lisa Stuart

Data Scientist

Hoofdstuk 4: overzicht

  • Bootstrapping/cross-validatie --> modelgeneralisatie
  • Ongelijke klassen
  • Gecorreleerde features
  • Ensemblemodelselectie
Machine Learning-sollicitatievragen oefenen in Python

Modelgeneralisatie

  • Het vermogen van een ML-model om goed te presteren op onzichtbare data
    • testset
    • toekomstige data
  • Train-metrics ≈ test-metrics
  • Overfitte modellen generaliseren niet
Machine Learning-sollicitatievragen oefenen in Python

Beslisboom

Beslisboomplot

1 https://medium.com/@rnbrown/creating-and-visualizing-decision-trees-with-python-f8e8fa394176
Machine Learning-sollicitatievragen oefenen in Python

Knopen van beslisboom

Wortelknoop van beslisboom

Machine Learning-sollicitatievragen oefenen in Python

Voordelen vs. nadelen

Beslisboomplot

  • Voordelen:
    • Makkelijk te begrijpen
    • Makkelijk te visualiseren
  • Nadelen:
    • Overfit snel
    • Werkt greedy
    • Bevooroordeeld bij klassenongelijkheid
Machine Learning-sollicitatievragen oefenen in Python

Random Forest

Random Forest

1 https://www.researchgate.net/figure/Random-Forest-visualization_fig11_326560291
Machine Learning-sollicitatievragen oefenen in Python

K-fold cross-validatie

K-fold cross-validatie

1 https://scikit-learn.org/stable/modules/cross_validation.html
Machine Learning-sollicitatievragen oefenen in Python

Functies

# decision tree
`sklearn.tree.DecisionTreeClassifier` 

# random forest 
`sklearn.ensemble.RandomForestClassifier`

# cross-validated grid search
`sklearn.model_selection.GridSearchCV` 

# model accuracy
`sklearn.metrics.accuracy_score` 

# train/test split function
`sklearn.model_selection.train_test_split`

# Parameters that gave best results
`cross-val_model.best_params_`

# Mean cross-validated score of 
# estimator with best params 
`cross-val_model.best_score_`
Machine Learning-sollicitatievragen oefenen in Python

GridSearchCV vs RandomSearchCV

Grid search

Machine Learning-sollicitatievragen oefenen in Python

Laten we oefenen!

Machine Learning-sollicitatievragen oefenen in Python

Preparing Video For Download...