Feature hashing

Rekayasa Fitur di R

Jorge Zazueta

Research Professor and Head of the Modeling Group at the School of Economics, UASLP

Apa itu feature hashing?

  • Mengubah variabel teks menjadi sekumpulan variabel numerik
  • Menggunakan nilai hash sebagai indeks fitur
  • Representasi data ber-memori rendah
  • Berguna saat kemungkinan muncul kategori baru pada data baru

Tetapkan nomor indeks ke setiap maskapai berdasarkan nilai teks.

Tabel yang mengilustrasikan feature hashing untuk maskapai.

Rekayasa Fitur di R

Ada berapa maskapai?

Dataset flights berisi maskapai sebagai faktor, tetapi kita tidak tahu apakah akan ada maskapai baru saat melihat data baru.

flights %>%
  select(carrier) %>%
  table()
carrier
  9E   AA   AS   B6   DL   EV   F9   FL   HA   MQ   OO   UA   US   VX   WN   YV 
 859 1744   26 2503 2619 3014   38  186   14 1540    2 3367 1228  244  757   41
Rekayasa Fitur di R

Mari kita hash fitur itu

Kita dapat membuat dummy hash untuk merepresentasikan nilai faktor, menggunakan paket textrecipes.

recipe <- recipe(~carrier, 
                 data = flights_train) %>%
  step_dummy_hash(carrier, prefix = NULL, 
                  signed = FALSE, 
                  num_terms = 50L)
# Siapkan recipe
object <- recipe %>%
  prep()

# Bake objek recipe dengan data baru
baked <- bake(object,
              new_data = flights_test)

Sekilas representasi step_dummy_hash().

bind_cols(flights_test$carrier,baked)[1:6,c(1,18:20)]
New names:
• `` -> `...1`
# A tibble: 10 × 4
   ...1  `_carrier_17` `_carrier_18` `_carrier_19`
   <chr>         <int>         <int>         <int>
 1 EV                0             0             0
 2 B6                0             1             0
 3 EV                0             0             0
 4 MQ                0             0             0
 5 DL                0             0             0
 6 EV                0             0             0
Rekayasa Fitur di R

Memvisualisasikan hashing

Kita dapat melihat matriks dengan bantuan paket plot.matrix.

flights_hash <- 
    as.matrix(baked)[1:50,] 

plot(flights_hash, 
     col = c("white","steelblue"), 
     key = NULL,
     border = NA)

Representasi grafis sampel penetapan dummy hash dari faktor maskapai asli.

Rekayasa Fitur di R

Ayo berlatih!

Rekayasa Fitur di R

Preparing Video For Download...