Model doğrulamaya giriş

Python'da Model Doğrulama

Kasey Jones

Data Scientist

Model doğrulama nedir?

Model doğrulama şunları içerir:

  • Modelinizin yeni veride beklenen performansı göstermesini sağlamak
  • Ayrılmış (holdout) veri kümelerinde performansı test etmek
  • En iyi model, hiperparametreler ve doğruluk ölçütlerini seçmek
  • Verilen veri için en iyi doğruluğa ulaşmak
Python'da Model Doğrulama

scikit-learn ile modelleme özeti

Temel modelleme adımları:

model = RandomForestRegressor(n_estimators=500, random_state=1111)

model.fit(X=X_train, y=y_train)
RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=500, n_jobs=1,
           oob_score=False, random_state=1111, verbose=0, warm_start=False)
Python'da Model Doğrulama

Modelleme özeti devamı

predictions = model.predict(X_test)

print("{0:.2f}".format(mae(y_true=y_test, y_pred=predictions)))
10.84

Ortalama Mutlak Hata (MAE) formülü

$$ \frac{\sum_{i=1}^{n} |y_i - \hat{y}_i|}{n} $$

Python'da Model Doğrulama

Önkoşul incelemesi

Python'da Model Doğrulama

Fivethirtyeight, Cadılar Bayramı şekeri güç sıralaması dahil çeşitli veri kümeleri sunar. Her şeker için başa baş kazanma yüzdesi 0–100% arasındadır.

Python'da Model Doğrulama

Görülen vs. görülmeyen veri

Eğitim verisi = görülen veri

model = RandomForestRegressor(n_estimators=500, random_state=1111)
model.fit(X_train, y_train)
train_predictions = model.predict(X_train)

Test verisi = görülmeyen veri

model = RandomForestRegressor(n_estimators=500, random_state=1111)
model.fit(X_train, y_train)
test_predictions = model.predict(X_test)
Python'da Model Doğrulama

Hadi başlayalım!

Python'da Model Doğrulama

Preparing Video For Download...