Machine Learning met boomgebaseerde modellen in Python
Elie Kawerk
Data Scientist
Hoe schatten we de generalisatiefout van een model?
Kan niet direct, want:
$f$ is onbekend,
je hebt meestal één dataset,
ruis is onvoorspelbaar.
Oplossing:
Raak de testset pas aan als je zeker bent van $\hat{f}$’s prestaties.
Evalueren op de trainingsset: bevooroordeelde schatting; $\hat{f}$ heeft alle trainingspunten al gezien.
Oplossing $\rightarrow$ Cross-validation (CV):
K-fold CV,
Hold-out CV.


Als $\hat{f}$ last heeft van hoge variantie:
CV-fout van $\hat{f}$ > trainingsfout van $\hat{f}$.
Als $\hat{f}$ last heeft van hoge bias:
CV-fout van $\hat{f} \approx$ trainingsfout van $\hat{f} >>$ gewenste fout.
$\hat{f}$ underfit op de trainingsset. Aanpak underfitting:
from sklearn.tree import DecisionTreeRegressor from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error as MSE from sklearn.model_selection import cross_val_score# Set seed for reproducibility SEED = 123 # Split data into 70% train and 30% test X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.3, random_state=SEED)# Instantiate decision tree regressor and assign it to 'dt' dt = DecisionTreeRegressor(max_depth=4, min_samples_leaf=0.14, random_state=SEED)
# Evalueer de lijst met MSE verkregen via 10-fold CV # Zet n_jobs op -1 om alle CPU-cores te gebruiken MSE_CV = - cross_val_score(dt, X_train, y_train, cv= 10, scoring='neg_mean_squared_error', n_jobs = -1)# Fit 'dt' op de trainingsset dt.fit(X_train, y_train) # Voorspel labels van de trainingsset y_predict_train = dt.predict(X_train) # Voorspel labels van de testset y_predict_test = dt.predict(X_test)
# CV MSE
print('CV MSE: {:.2f}'.format(MSE_CV.mean()))
CV MSE: 20.51
# Training MSE
print('Train MSE: {:.2f}'.format(MSE(y_train, y_predict_train)))
Train MSE: 15.30
# Test MSE
print('Test MSE: {:.2f}'.format(MSE(y_test, y_predict_test)))
Test MSE: 20.92
Machine Learning met boomgebaseerde modellen in Python