Doğruluk metrikleri: regresyon modelleri

Python'da Model Doğrulama

Kasey Jones

Data Scientist

Regresyon modelleri

Regresyon modelleri sürekli değişkenleri sınıflandırır. Örneğin puan sayısı, galon sayısı veya yavru köpek sayısı!

Ortalama mutlak hata (MAE)

$$ MAE = \frac{\sum_{i=1}^{n} |y_i - \hat{y}_i|}{n} $$

En basit ve sezgisel metrik
Tüm noktaları eşit işler
Aykırı değerlere duyarlı değildir

Ortalama kare hata (MSE)

$$ MSE = \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i) ^2}{n} $$

En yaygın regresyon metriği
Aykırı hataların toplam hataya daha çok katkı yapmasına izin verir
Rastgele aile yolculukları tahminlerde büyük hatalara yol açabilir

MAE vs. MSE

Doğruluk metrikleri her zaman uygulamaya özeldir
MAE ve MSE farklı birimlere sahiptir; karşılaştırılmamalıdır

Ortalama mutlak hata

rfr = RandomForestRegressor(n_estimators=500, random_state=1111)
rfr.fit(X_train, y_train)
test_predictions = rfr.predict(X_test)

sum(abs(y_test - test_predictions))/len(test_predictions)

9.99

from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, test_predictions)

9.99

Ortalama kare hata

sum(abs(y_test - test_predictions)**2)/len(test_predictions)

141.4

from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, test_predictions)

141.4

Veri alt kümesi için doğruluk

chocolate_preds = rfr.predict(X_test[X_test[:, 1] == 1])
mean_absolute_error(y_test[X_test[:, 1] == 1], chocolate_preds)

8.79

nonchocolate_preds = rfr.predict(X_test[X_test[:, 1] == 0])
mean_absolute_error(y_test[X_test[:, 1] == 0], nonchocolate_preds)

10.99

Hadi pratik yapalım

Python'da Model Doğrulama