Standarisasi fitur

Memprediksi CTR dengan Machine Learning di Python

Kevin Huo

Instructor

Mengapa standarisasi penting

  • Standarisasi: memastikan data sesuai asumsi model
  • Beberapa fitur bisa punya varians terlalu tinggi dan mendominasi model
  • Contoh: beberapa hitungan punya rentang nilai besar karena satu pengguna spam
  • Tidak berlaku untuk variabel kategorikal seperti site_id, app_id, device_id, dll.
Memprediksi CTR dengan Machine Learning di Python

Normalisasi log

df.var()
click                   1.294270e-01
hour                    1.123316e-01
df.var().median()
0.7108583771671939
print(df['click'].var())
df['device_id_count'] = df[
  'device_id_count'].apply(
  lambda x: np.log(x))
print(df['click'].var())
249362570.10134825
15.628476003312514
Memprediksi CTR dengan Machine Learning di Python

Menskalakan data

  • Standard scaling mengubah semua fitur agar mean 0 dan standar deviasi 1

Contoh standard scaling

  • Umumnya praktik baik untuk model pembelajaran mesin
Memprediksi CTR dengan Machine Learning di Python

Cara melakukan standard scaling

  • Skala dapat diterapkan dengan StandardScaler() sebagai berikut:
scaler = StandardScaler()
X[numeric_cols] = scaler.fit_transform(X[numeric_cols])
dtype: float64
1    10.5 -> 0.85
2    32.3 -> 1.54
Memprediksi CTR dengan Machine Learning di Python

Ayo berlatih!

Memprediksi CTR dengan Machine Learning di Python

Preparing Video For Download...