Validation croisée

Apprentissage supervisé avec scikit-learn

George Boorman

Core Curriculum Manager, DataCamp

Motivation de la validation croisée

Les performances du modèle dépendent de la façon dont les données sont divisées
Non représentatif de la capacité du modèle à se généraliser à de nouvelles données
Solution : la validation croisée

Les bases de la validation croisée

en-têtes du tableau : split 1, fold 1, fold 2, fold 3, fold 4 et fold 5

Les bases de la validation croisée

split 1 réservé comme ensemble de test

Les bases de la validation croisée

blocs 2 à 5 utilisés comme données d’apprentissage

Les bases de la validation croisée

calculer la métrique sur ces blocs

Les bases de la validation croisée

le bloc 2 comme données de test

Les bases de la validation croisée

blocs 1, 3, 4 et 5 comme données d’apprentissage

Les bases de la validation croisée

calculer à nouveau la métrique

Les bases de la validation croisée

répéter avec le troisième bloc

Les bases de la validation croisée

répéter avec le quatrième bloc

Les bases de la validation croisée

répéter avec le cinquième bloc

Validation croisée et performance du modèle

5 blocs = VC à 5 blocs
10 blocs = VC à 10 blocs
k blocs = VC à k blocs
Plus de blocs = plus de coûts de calcul

Validation croisée dans scikit-learn

from sklearn.model_selection import cross_val_score, KFold

kf = KFold(n_splits=6, shuffle=True, random_state=42)

reg = LinearRegression()

cv_results = cross_val_score(reg, X, y, cv=kf)

Évaluation de la performance de la validation croisée

print(cv_results)

[0.70262578, 0.7659624, 0.75188205, 0.76914482, 0.72551151, 0.73608277]

print(np.mean(cv_results), np.std(cv_results))

0.7418682216666667 0.023330243960652888

print(np.quantile(cv_results, [0.025, 0.975]))

array([0.7054865, 0.76874702])

Passons à la pratique !

Apprentissage supervisé avec scikit-learn