Validation croisée

Apprentissage supervisé avec scikit-learn

George Boorman

Core Curriculum Manager, DataCamp

Motivation de la validation croisée

  • Les performances du modèle dépendent de la façon dont les données sont divisées

  • Non représentatif de la capacité du modèle à se généraliser à de nouvelles données

  • Solution : la validation croisée

Apprentissage supervisé avec scikit-learn

Les bases de la validation croisée

en-têtes du tableau : split 1, fold 1, fold 2, fold 3, fold 4 et fold 5

Apprentissage supervisé avec scikit-learn

Les bases de la validation croisée

split 1 réservé comme ensemble de test

Apprentissage supervisé avec scikit-learn

Les bases de la validation croisée

blocs 2 à 5 utilisés comme données d’apprentissage

Apprentissage supervisé avec scikit-learn

Les bases de la validation croisée

calculer la métrique sur ces blocs

Apprentissage supervisé avec scikit-learn

Les bases de la validation croisée

le bloc 2 comme données de test

Apprentissage supervisé avec scikit-learn

Les bases de la validation croisée

blocs 1, 3, 4 et 5 comme données d’apprentissage

Apprentissage supervisé avec scikit-learn

Les bases de la validation croisée

calculer à nouveau la métrique

Apprentissage supervisé avec scikit-learn

Les bases de la validation croisée

répéter avec le troisième bloc

Apprentissage supervisé avec scikit-learn

Les bases de la validation croisée

répéter avec le quatrième bloc

Apprentissage supervisé avec scikit-learn

Les bases de la validation croisée

répéter avec le cinquième bloc

Apprentissage supervisé avec scikit-learn

Validation croisée et performance du modèle

  • 5 blocs = VC à 5 blocs

  • 10 blocs = VC à 10 blocs

  • k blocs = VC à k blocs

  • Plus de blocs = plus de coûts de calcul

Apprentissage supervisé avec scikit-learn

Validation croisée dans scikit-learn

from sklearn.model_selection import cross_val_score, KFold

kf = KFold(n_splits=6, shuffle=True, random_state=42)
reg = LinearRegression()
cv_results = cross_val_score(reg, X, y, cv=kf)
Apprentissage supervisé avec scikit-learn

Évaluation de la performance de la validation croisée

print(cv_results)
[0.70262578, 0.7659624, 0.75188205, 0.76914482, 0.72551151, 0.73608277]
print(np.mean(cv_results), np.std(cv_results))
0.7418682216666667 0.023330243960652888
print(np.quantile(cv_results, [0.025, 0.975]))
array([0.7054865, 0.76874702])
Apprentissage supervisé avec scikit-learn

Passons à la pratique !

Apprentissage supervisé avec scikit-learn

Preparing Video For Download...