Pengantar validasi model

Validasi Model di Python

Kasey Jones

Data Scientist

Apa itu validasi model?

Validasi model mencakup:

  • Memastikan model bekerja baik pada data baru
  • Menguji kinerja pada data holdout
  • Memilih model, parameter, dan metrik akurasi terbaik
  • Mencapai akurasi terbaik untuk data yang ada
Validasi Model di Python

Tinjauan pemodelan scikit-learn

Langkah pemodelan dasar:

model = RandomForestRegressor(n_estimators=500, random_state=1111)

model.fit(X=X_train, y=y_train)
RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=500, n_jobs=1,
           oob_score=False, random_state=1111, verbose=0, warm_start=False)
Validasi Model di Python

Tinjauan pemodelan lanjutan

predictions = model.predict(X_test)

print("{0:.2f}".format(mae(y_true=y_test, y_pred=predictions)))
10.84

Rumus Mean Absolute Error

$$ \frac{\sum_{i=1}^{n} |y_i - \hat{y}_i|}{n} $$

Validasi Model di Python

Ulas prasyarat

Validasi Model di Python

Fivethirtyeight memiliki beberapa dataset, termasuk peringkat permen Halloween. Tiap permen punya persentase menang head-to-head antara 0 hingga 100%.

Validasi Model di Python

Data terlihat vs. tidak terlihat

Data pelatihan = data yang terlihat

model = RandomForestRegressor(n_estimators=500, random_state=1111)
model.fit(X_train, y_train)
train_predictions = model.predict(X_train)

Data pengujian = data yang tidak terlihat

model = RandomForestRegressor(n_estimators=500, random_state=1111)
model.fit(X_train, y_train)
test_predictions = model.predict(X_test)
Validasi Model di Python

Mari mulai!

Validasi Model di Python

Preparing Video For Download...