Trade-off bias-varian

Validasi Model di Python

Kasey Jones

Data Scientist

Varian

  • Varian: terlalu mengikuti data latih
    • Gagal menggeneralisasi ke data uji
    • Error latih rendah tapi error uji tinggi
    • Terjadi saat model overfitting dan kompleks
Validasi Model di Python

Model overfitting (varian tinggi)

Overfitting terjadi saat prediksi terlalu mengikuti data latih. Jika pada scatter plot semua prediksi persis sejajar dengan nilai sebenarnya, kemungkinan terjadi overfitting.

Validasi Model di Python

Bias

  • Bias: gagal menemukan hubungan antara data dan respons
    • Error latih/uji tinggi
    • Terjadi saat model underfitting
Validasi Model di Python

Model underfitting (bias tinggi)

Underfitting terjadi saat ada hubungan antara variabel target dan variabel prediktor, tetapi model gagal menemukannya.

Validasi Model di Python

Performa optimal

Validasi Model di Python

Parameter yang menyebabkan over/underfitting

rfc = RandomForestClassifier(n_estimators=100, max_depth=4)
rfc.fit(X_train, y_train)

print("Training: {0:.2f}".format(accuracy_score(y_train, train_predictions)))
Training: .84
print("Testing: {0:.2f}".format(accuracy_score(y_test, test_predictions)))
Testing: .77
Validasi Model di Python
rfc = RandomForestClassifier(n_estimators=100, max_depth=14)
rfc.fit(X_train, y_train)

print("Training: {0:.2f}".format(accuracy_score(y_train, train_predictions)))
Training: 1.0
print("Testing: {0:.2f}".format(accuracy_score(y_test, test_predictions)))
Testing: .83
Validasi Model di Python
rfc = RandomForestClassifier(n_estimators=100, max_depth=10)
rfc.fit(X_train, y_train)

print("Training: {0:.2f}".format(accuracy_score(y_train, train_predictions)))
Training: .89
print("Testing: {0:.2f}".format(accuracy_score(y_test, test_predictions)))
Testing: .86
Validasi Model di Python

Ingat, hanya Anda yang bisa mencegah overfitting!

Validasi Model di Python

Preparing Video For Download...