Prevedere il CTR con il Machine Learning in Python
Kevin Huo
Instructor
print(df.hour.head(1))
14102101
df['hour'] = pd.to_datetime(
df['hour'], format = '%y%m%d%H')
df['hour_of_day'] = df['hour'].dt.hour
print(df.hour.head(1))
2014-10-21 01:00:0
print(df.groupby('hour_of_day')
['click'].sum())
click
hour_of_day
1 1092
2 6546
Le variabili categoriche vanno convertite in numeriche
Funzione hash: mappa un input qualsiasi a un intero, restituendo sempre lo stesso output per lo stesso input
Funzione lambda: lambda x: f(x)
Applica l'hash con f(x) = hash(x) così:
df['site_id'] = df['site_id'].apply(lambda x: hash(x), axis = 0)
83a0ad1a -> -9161053084583616050
85f751fd-> 818242008494177460
count() e nunique():df['ad_type'].count()
50000
df['ad_type'].nunique()
31

Più feature spesso migliorano la predizione
Esempio di nuova feature: impression per device_id (utente) e search_engine_type:
df['device_id_count'] = df.groupby('device_id')['click'].transform("count")
df['search_engine_type_count'] = df.groupby('search_engine_type')['click'].transform("count")
print(df.head(1))
... device_id_count search_engine_type_count
... 40862 47710
Prevedere il CTR con il Machine Learning in Python