Validasi silang

Validasi Model di Python

Kasey Jones

Data Scientist

Validasi silang

Membuat dataset latih, validasi, dan uji dilakukan dengan membagi data menjadi 3 subset. Contoh: 60% untuk pelatihan, 20% validasi, 20% pengujian.

Validasi Model di Python

Validasi silang

Validasi silang membagi data menjadi beberapa pasang latih–validasi, bukan sekali saja 80:20. Misalnya gunakan 5 pembagian 80:20 berbeda.

Validasi Model di Python

n_splits: jumlah lipatan validasi silang

shuffle: boolean untuk mengacak data sebelum pemisahan

random_state: seed acak

from sklearn.model_selection import KFold

X = np.array(range(40))
y = np.array([0] * 20 + [1] * 20)

kf = KFold(n_splits=5)

splits = kf.split(X)
Validasi Model di Python
kf = KFold(n_splits=5)
splits = kf.split(X)

for train_index, test_index in splits: print(len(train_index), len(test_index))
32 8 32 8 32 8 32 8 32 8
# Cetak salah satu set indeks:
print(train_index, test_index)
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 ...]
[32 33 34 35 36 37 38 39]
Validasi Model di Python
rfr = RandomForestRegressor(n_estimators=25, random_state=1111)

errors = [] for train_index, val_index in splits: X_train, y_train = X[train_index], y[train_index] X_val, y_val = X[val_index], y[val_index] rfr.fit(X_train, y_train) predictions = rfr.predict(X_val) errors.append(<some_accuracy_metric>)
print(np.mean(errors))
4.25
Validasi Model di Python

Waktunya berlatih

Validasi Model di Python

Preparing Video For Download...