Introductie tot modelvalidatie

Modelvalidatie in Python

Kasey Jones

Data Scientist

Wat is modelvalidatie?

Modelvalidatie houdt in:

Controleren of je model presteert op nieuwe data
Testen op holdout-datasets
Beste model, parameters en metrics kiezen
Maximale nauwkeurigheid voor de data behalen

scikit-learn: modeling review

Basisstappen modelleren:

model = RandomForestRegressor(n_estimators=500, random_state=1111)

model.fit(X=X_train, y=y_train)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=500, n_jobs=1,
           oob_score=False, random_state=1111, verbose=0, warm_start=False)

Modeling review (vervolg)

predictions = model.predict(X_test)

print("{0:.2f}".format(mae(y_true=y_test, y_pred=predictions)))

10.84

Formule Mean Absolute Error

$$ \frac{\sum_{i=1}^{n} |y_i - \hat{y}_i|}{n} $$

Vereiste voorkennis

Fivethirtyeight heeft diverse datasets, waaronder de Halloween-candy-ranglijst. Elke snoep heeft een head-to-head winstpercentage tussen 0 en 100%.

Geziene vs. ongeziene data

Trainingsdata = geziene data

model = RandomForestRegressor(n_estimators=500, random_state=1111)
model.fit(X_train, y_train)
train_predictions = model.predict(X_train)

Testdata = ongeziene data

model = RandomForestRegressor(n_estimators=500, random_state=1111)
model.fit(X_train, y_train)
test_predictions = model.predict(X_test)

Laten we beginnen!

Modelvalidatie in Python