Werken met categorische variabelen

Feature engineering voor Machine Learning in Python

Robert O'Callaghan

Director of Data Science, Ordergroove

Categorische features encoden

Feature engineering voor Machine Learning in Python

Categorische features encoden

Feature engineering voor Machine Learning in Python

Categorische features encoden

  • One-hot encoding
  • Dummy-encoding
Feature engineering voor Machine Learning in Python

One-hot encoding

pd.get_dummies(df, columns=['Country'], 
               prefix='C')
    C_France    C_India    C_UK    C_USA
0          0          1       0        0
1          0          0       0        1
2          0          0       1        0
3          0          0       1        0
4          1          0       0        0
Feature engineering voor Machine Learning in Python

Dummy-encoding

pd.get_dummies(df, columns=['Country'],
               drop_first=True, prefix='C')
     C_India    C_UK    C_USA
0          1       0        0
1          0       0        1
2          0       1        0
3          0       1        0
4          0       0        0
Feature engineering voor Machine Learning in Python

One-hot vs. dummies

  • One-hot encoding: Verklaarbare features
  • Dummy-encoding: Noodzakelijke info zonder dubbeling
Feature engineering voor Machine Learning in Python
Index Geslacht
0 Man
1 Vrouw
2 Man
Index Man Vrouw
0 1 0
1 0 1
2 1 0
Index Man
0 1
1 0
2 1
Feature engineering voor Machine Learning in Python

Kolommen beperken

counts = df['Country'].value_counts()
print(counts)
'USA'      8
'UK'       6
'India'    2
'France'   1
Name: Country, dtype: object
Feature engineering voor Machine Learning in Python

Kolommen beperken

mask = df['Country'].isin(counts[counts < 5].index)

df['Country'][mask] = 'Other'
print(pd.value_counts(colors))
'USA'      8
'UK'       6
'Other'    3
Name: Country, dtype: object
Feature engineering voor Machine Learning in Python

Nu kun je met categorische variabelen omgaan

Feature engineering voor Machine Learning in Python

Preparing Video For Download...