Validazione locale

Vincere una competizione Kaggle con Python

Yauhen Babakhin

Kaggle Grandmaster

Motivazione

esempio di overfitting con classifiche Public e Private

Vincere una competizione Kaggle con Python

Holdout set

schema del holdout set

Vincere una competizione Kaggle con Python

Holdout set

schema del holdout set

Vincere una competizione Kaggle con Python

Holdout set

schema del holdout set

Vincere una competizione Kaggle con Python

Cross-validation k-fold

 

suddividi i dati di train in quattro fold

Vincere una competizione Kaggle con Python

Cross-validation k-fold

 

schema di cross-validation k-fold

Vincere una competizione Kaggle con Python

Cross-validation k-fold

# Import KFold
from sklearn.model_selection import KFold
# Crea un oggetto KFold
kf = KFold(n_splits=5, shuffle=True, random_state=123)
# Itera su ogni split di cross-validation
for train_index, test_index in kf.split(train):

# Ottieni train e test per lo split corrente cv_train, cv_test = train.iloc[train_index], train.iloc[test_index]
Vincere una competizione Kaggle con Python

K-fold stratificato

  schema di stratified k-fold cross-validation

Vincere una competizione Kaggle con Python

K-fold stratificato

# Import StratifiedKFold
from sklearn.model_selection import StratifiedKFold

# Crea un oggetto StratifiedKFold str_kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=123)
# Itera su ogni split di cross-validation for train_index, test_index in str_kf.split(train, train['target']): cv_train, cv_test = train.iloc[train_index], train.iloc[test_index]
Vincere una competizione Kaggle con Python

Passiamo alla pratica !

Vincere una competizione Kaggle con Python

Preparing Video For Download...