Rekayasa fitur

Memprediksi CTR dengan Machine Learning di Python

Kevin Huo

Instructor

Mengolah tanggal

print(df.hour.head(1))
14102101
df['hour'] = pd.to_datetime(
  df['hour'], format = '%y%m%d%H')
df['hour_of_day'] = df['hour'].dt.hour
print(df.hour.head(1))
2014-10-21 01:00:0
print(df.groupby('hour_of_day')
      ['click'].sum())
             click
hour_of_day       
1             1092
2             6546
Memprediksi CTR dengan Machine Learning di Python

Mengonversi variabel kategorikal dengan hashing

  • Fitur kategorikal harus diubah ke format numerik

  • Fungsi hash: memetakan input apa pun ke bilangan bulat, selalu memberi keluaran yang sama untuk input yang sama

  • Fungsi lambda: lambda x: f(x)

  • Terapkan hash via f(x) = hash(x) sebagai berikut:

df['site_id'] = df['site_id'].apply(lambda x: hash(x), axis = 0)
83a0ad1a -> -9161053084583616050
85f751fd-> 818242008494177460
Memprediksi CTR dengan Machine Learning di Python

Menelaah fitur

  • Contoh count() dan nunique():
df['ad_type'].count()
50000
df['ad_type'].nunique()
31

Contoh distribusi kolom kategorikal

Memprediksi CTR dengan Machine Learning di Python

Membuat fitur

  • Sebagian besar variabel bersifat kategorikal
  • Menambah fitur umumnya meningkatkan daya prediksi

  • Contoh fitur baru: impresi per device_id (pengguna) dan search_engine_type:

df['device_id_count'] = df.groupby('device_id')['click'].transform("count")
df['search_engine_type_count'] = df.groupby('search_engine_type')['click'].transform("count")
print(df.head(1))
...  device_id_count  search_engine_type_count
...            40862                     47710
Memprediksi CTR dengan Machine Learning di Python

Ayo berlatih!

Memprediksi CTR dengan Machine Learning di Python

Preparing Video For Download...