Membuat dataset train, test, dan validation

Validasi Model di Python

Kasey Jones

Data Scientist

Pembagian train/test tradisional

  • Data terlihat (dipakai untuk training)
  • Data tak terlihat (tidak tersedia untuk training)

Membagi data berarti menggunakan sebagian data untuk training, dan sebagian kecil untuk dataset testing.

Validasi Model di Python

Definisi dataset dan rasio

Dataset Definisi
Train Sampel data untuk melatih model
Test (holdout) Sampel data untuk menilai kinerja model

Contoh rasio

  • 80:20
  • 90:10 (saat data sedikit)
  • 70:30 (saat pelatihan mahal secara komputasi)
Validasi Model di Python

Dataset X dan y

import pandas as pd

tic_tac_toe = pd.read_csv("tic-tac-toe.csv")
X = pd.get_dummies(tic_tac_toe.iloc[:,0:9])
y = tic_tac_toe.iloc[:, 9]

Kursus Python tentang variabel dummy:

Validasi Model di Python

Membuat sampel holdout

X_train, X_test, y_train, y_test  =\
    train_test_split(X, y, test_size=0.2, random_state=1111)

Parameter:

  • test_size
  • train_size
  • random_state
Validasi Model di Python

Dataset untuk uji awal?

Apa yang dilakukan saat menguji parameter model berbeda?

  • 100 vs 1000 trees
Validasi Model di Python

Untuk menguji parameter model, kita perlu membagi data menjadi tiga bagian: untuk training, validation, dan testing.

Validasi Model di Python

Train, validation, test (lanj.)

X_temp, X_test, y_temp, y_test  =\
    train_test_split(X, y, test_size=0.2, random_state=1111)
X_train, X_val, y_train, y_val =\
    train_test_split(X_temp, y_temp, test_size=0.25, random_state=11111)
Validasi Model di Python

Saatnya holdout

Validasi Model di Python

Preparing Video For Download...