Features standaardiseren

CTR voorspellen met Machine Learning in Python

Kevin Huo

Instructor

Waarom standaardiseren belangrijk is

  • Standaardiseren: zorgen dat je data past bij modelaannames
  • Sommige features hebben te hoge variantie en domineren het model
  • Voorbeeld: een telwaarde heeft een te groot bereik door één spamgebruiker
  • Niet van toepassing op categorische variabelen zoals site_id, app_id, device_id, enz.
CTR voorspellen met Machine Learning in Python

Log-normalisatie

df.var()
click                   1.294270e-01
hour                    1.123316e-01
df.var().median()
0.7108583771671939
print(df['click'].var())
df['device_id_count'] = df[
  'device_id_count'].apply(
  lambda x: np.log(x))
print(df['click'].var())
249362570.10134825
15.628476003312514
CTR voorspellen met Machine Learning in Python

Data schalen

  • Standaardschalen zet alle features op gemiddelde 0 en standaarddeviatie 1

Voorbeeld van standaardschalen

  • Meestal een goede praktijk voor machine learning-modellen
CTR voorspellen met Machine Learning in Python

Data standaardschalen

  • Schalen kan met StandardScaler() zo:
scaler = StandardScaler()
X[numeric_cols] = scaler.fit_transform(X[numeric_cols])
dtype: float64
1    10.5 -> 0.85
2    32.3 -> 1.54
CTR voorspellen met Machine Learning in Python

Laten we oefenen!

CTR voorspellen met Machine Learning in Python

Preparing Video For Download...