Eğitim, test ve doğrulama veri setleri oluşturma

Python'da Model Doğrulama

Kasey Jones

Data Scientist

Geleneksel train/test bölmesi

  • Görülen veri (eğitimde kullanılır)
  • Görülmeyen veri (eğitimde yoktur)

Veri bölme, tüm verinin bir kısmını eğitim, daha küçük bir kısmını test için ayırmaktır.

Python'da Model Doğrulama

Veri seti tanımları ve oranlar

Veri seti Tanım
Train Modeli eğitirken kullanılan örnek
Test (holdout örneği) Model performansını değerlendirmede kullanılan örnek

Oran örnekleri

  • 80:20
  • 90:10 (veri azsa)
  • 70:30 (hesaplama pahalıysa)
Python'da Model Doğrulama

X ve y veri setleri

import pandas as pd

tic_tac_toe = pd.read_csv("tic-tac-toe.csv")
X = pd.get_dummies(tic_tac_toe.iloc[:,0:9])
y = tic_tac_toe.iloc[:, 9]

Dummy değişkenlerle ilgili Python kursları:

Python'da Model Doğrulama

Holdout örnekleri oluşturma

X_train, X_test, y_train, y_test  =\
    train_test_split(X, y, test_size=0.2, random_state=1111)

Parametreler:

  • test_size
  • train_size
  • random_state
Python'da Model Doğrulama

Ön test için veri seti?

Farklı model parametrelerini denerken ne yaparız?

  • 100 karşı 1000 ağaç
Python'da Model Doğrulama

Model hiperparametrelerini denemek için veriyi üç parçaya ayırmalıyız: eğitim, doğrulama ve test.

Python'da Model Doğrulama

Eğitim, doğrulama, test (devam)

X_temp, X_test, y_temp, y_test  =\
    train_test_split(X, y, test_size=0.2, random_state=1111)
X_train, X_val, y_train, y_val =\
    train_test_split(X_temp, y_temp, test_size=0.25, random_state=11111)
Python'da Model Doğrulama

Holdout zamanı

Python'da Model Doğrulama

Preparing Video For Download...