Standardizzare le feature

Prevedere il CTR con il Machine Learning in Python

Kevin Huo

Instructor

Perché la standardizzazione è importante

  • Standardizzazione: far sì che i dati rispettino le assunzioni dei modelli
  • Alcune feature possono avere varianza troppo alta e dominare il modello
  • Esempio: certe conte possono avere range enorme per via di uno spammer
  • Non si applica a variabili categoriche come site_id, app_id, device_id, ecc.
Prevedere il CTR con il Machine Learning in Python

Normalizzazione log

df.var()
click                   1.294270e-01
hour                    1.123316e-01
df.var().median()
0.7108583771671939
print(df['click'].var())
df['device_id_count'] = df[
  'device_id_count'].apply(
  lambda x: np.log(x))
print(df['click'].var())
249362570.10134825
15.628476003312514
Prevedere il CTR con il Machine Learning in Python

Scalare i dati

  • Lo standard scaling porta tutte le feature a media 0 e deviazione standard 1

Esempio di standard scaling

  • In generale è una buona pratica per i modelli di machine learning
Prevedere il CTR con il Machine Learning in Python

Come fare lo standard scaling

  • Puoi scalare con StandardScaler() così:
scaler = StandardScaler()
X[numeric_cols] = scaler.fit_transform(X[numeric_cols])
dtype: float64
1    10.5 -> 0.85
2    32.3 -> 1.54
Prevedere il CTR con il Machine Learning in Python

Passiamo alla pratica !

Prevedere il CTR con il Machine Learning in Python

Preparing Video For Download...