Yeni veriyi ölçekleme ve dönüştürme

Python ile Machine Learning için Özellik Mühendisliği

Robet O'Callaghan

Director of Data Science, Ordergroove

Eğitimdeki ölçekleyicileri yeniden kullanın

scaler = StandardScaler()

scaler.fit(train[['col']])

train['scaled_col'] = scaler.transform(train[['col']])

# FIT SOME MODEL
# ....

test = pd.read_csv('test_csv')

test['scaled_col'] = scaler.transform(test[['col']])

Python ile Machine Learning için Özellik Mühendisliği

Yeniden kullanım için eğitim dönüşümleri

train_mean = train[['col']].mean()
train_std = train[['col']].std()

cut_off = train_std * 3
train_lower = train_mean - cut_off
train_upper = train_mean + cut_off

# Subset train data

test = pd.read_csv('test_csv')

# Subset test data
test = test[(test[['col']] < train_upper) & 
              (test[['col']] > train_lower)]

Python ile Machine Learning için Özellik Mühendisliği

Neden yalnızca eğitim verisi?

 

Veri sızıntısı: Model performansını değerlendirirken erişiminiz olmayacak veriyi kullanmak

Python ile Machine Learning için Özellik Mühendisliği

Veri sızıntısından kaçının!

Python ile Machine Learning için Özellik Mühendisliği

Preparing Video For Download...