Categorische features

Een Kaggle-competitie winnen met Python

Yauhen Babakhin

Kaggle Grandmaster

Label encoding

ID Categorische feature
1 A
2 B
3 C
4 A
5 D
6 A
ID Label-encoded
1 0
2 1
3 2
4 0
5 3
6 0
Een Kaggle-competitie winnen met Python

Label encoding

# Importeer LabelEncoder
from sklearn.preprocessing import LabelEncoder

# Maak een LabelEncoder-object le = LabelEncoder()
# Encodeer een categorische feature df['cat_encoded'] = le.fit_transform(df['cat'])
     ID   cat  cat_encoded
0     1   A    0
1     2   B    1
2     3   C    2
3     4   A    0
Een Kaggle-competitie winnen met Python

One-hot encoding

ID Categorische feature
1 A
2 B
3 C
4 A
5 D
6 A
ID Cat == A Cat == B Cat == C Cat == D
1 1 0 0 0
2 0 1 0 0
3 0 0 1 0
4 1 0 0 0
5 0 0 0 1
6 1 0 0 0
Een Kaggle-competitie winnen met Python

One-hot encoding

# Maak one-hot-gecodeerde features
ohe = pd.get_dummies(df['cat'], prefix='ohe_cat')

# Verwijder de oorspronkelijke feature df.drop('cat', axis=1, inplace=True)
# Voeg OHE-features toe aan de dataframe df = pd.concat([df, ohe], axis=1)
     ID ohe_cat_A ohe_cat_B ohe_cat_C ohe_cat_D
0     1         1         0         0         0
1     2         0         1         0         0
2     3         0         0         1         0
3     4         1         0         0         0
Een Kaggle-competitie winnen met Python

Binaire features

# DataFrame met een binaire feature
binary_feature
      binary_feat
0     Yes
1     No
le = LabelEncoder()
binary_feature['binary_encoded'] = le.fit_transform(binary_feature['binary_feat'])
  binary_feat binary_encoded
0     Yes     1
1     No      0
Een Kaggle-competitie winnen met Python

Andere encoderingstechnieken

  • Backward Difference Coding
  • BaseN
  • Binary
  • CatBoost Encoder
  • Hashing
  • Helmert Coding
  • James-Stein Encoder
  • Leave One Out
  • M-estimate
  • One Hot
  • Ordinaal
  • Polynomial Coding
  • Sum Coding
  • Target Encoder
  • Weight of Evidence
Een Kaggle-competitie winnen met Python

Andere encoderingstechnieken

  • Backward Difference Coding
  • BaseN
  • Binary
  • CatBoost Encoder
  • Hashing
  • Helmert Coding
  • James-Stein Encoder
  • Leave One Out
  • M-estimate
  • One Hot
  • Ordinaal
  • Polynomial Coding
  • Sum Coding
  • Target Encoder
  • Weight of Evidence
Een Kaggle-competitie winnen met Python

Laten we oefenen!

Een Kaggle-competitie winnen met Python

Preparing Video For Download...