One-hot encoding

Lavorare con i dati categorici in Python

Kasey Jones

Research Data Scientist

Perché non usare solo il label encoding?

used_cars["engine_fuel"] = used_cars["engine_fuel"].astype("category")
codes = used_cars["engine_fuel"].cat.codes
categories = used_cars["engine_fuel"]
dict(zip(codes, categories))
{3: 'gasoline',
 2: 'gas',
 0: 'diesel',
 5: 'hybrid-petrol',
 4: 'hybrid-diesel',
 1: 'electric'}
Lavorare con i dati categorici in Python

One-hot encoding con pandas

pd.get_dummies()

  • data: un DataFrame pandas
  • columns: un oggetto list-like con i nomi delle colonne
  • prefix: stringa da premettere a ogni categoria
Lavorare con i dati categorici in Python

One-hot encoding su un DataFrame

used_cars[["odometer_value", "color"]].head()

Esempio di output:

   odometer_value   color
0          190000  silver
1          290000    blue
2          402000     red
3           10000    blue
4          280000   black
...
Lavorare con i dati categorici in Python

One-hot encoding su un DataFrame (continua)

used_cars_onehot = pd.get_dummies(used_cars[["odometer_value", "color"]])

used_cars_onehot.head()
   odometer_value  color_black  color_brown  color_green ...
0          190000            0            0            0 ...
1          290000            0            0            0 ...
2          402000            0            0            0 ...
3           10000            0            0            0 ...
4          280000            1            0            0 ...
print(used_cars_onehot.shape)
(38531, 13)
Lavorare con i dati categorici in Python

Selezionare le colonne da usare

used_cars_onehot = pd.get_dummies(used_cars, columns=["color"], prefix="")
used_cars_onehot.head()
      manufacturer_name ...  _black  _blue  _brown
0                Subaru ...       0      0       0
1                Subaru ...       0      1       0
2                Subaru ...       0      0       0
3                Subaru ...       0      1       0
4                Subaru ...       1      0       0
print(used_cars_onehot.shape)
(38531, 41)
Lavorare con i dati categorici in Python

Alcune note rapide

  • Potrebbe creare troppe feature
used_cars_onehot = pd.get_dummies(used_cars)
print(used_cars_onehot.shape)
(38531, 1240)
  • I valori NaN non hanno una colonna dedicata
Lavorare con i dati categorici in Python

Esercizio di one-hot encoding

Lavorare con i dati categorici in Python

Preparing Video For Download...