Ontbrekende data

Een Kaggle-competitie winnen met Python

Yauhen Babakhin

Kaggle Grandmaster

Ontbrekende data

ID Categorische feature Numerieke feature Binaire target
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A NaN 1
5 NaN 2.6 0
6 A 5.3 0
Een Kaggle-competitie winnen met Python

Ontbrekende data imputeren

 

Numerieke data

  • Imputatie met gemiddelde/mediaan
ID Categorische feature Numerieke feature Binaire target
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A NaN 1
5 NaN 2.6 0
6 A 5.3 0
Een Kaggle-competitie winnen met Python

Ontbrekende data imputeren

 

Numerieke data

  • Imputatie met gemiddelde/mediaan
  • Imputatie met vaste waarde
ID Categorische feature Numerieke feature Binaire target
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A 4.72 1
5 NaN 2.6 0
6 A 5.3 0
Een Kaggle-competitie winnen met Python

Ontbrekende data imputeren

 

Numerieke data

  • Imputatie met gemiddelde/mediaan
  • Imputatie met vaste waarde
ID Categorische feature Numerieke feature Binaire target
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A -999 1
5 NaN 2.6 0
6 A 5.3 0
Een Kaggle-competitie winnen met Python

Ontbrekende data imputeren

 

Numerieke data

  • Imputatie met gemiddelde/mediaan
  • Imputatie met vaste waarde

Categorische data

  • Imputatie met meest voorkomende categorie
ID Categorische feature Numerieke feature Binaire target
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A -999 1
5 NaN 2.6 0
6 A 5.3 0
Een Kaggle-competitie winnen met Python

Ontbrekende data imputeren

 

Numerieke data

  • Imputatie met gemiddelde/mediaan
  • Imputatie met vaste waarde

Categorische data

  • Imputatie met meest voorkomende categorie
  • Nieuwe categorie imputeren
ID Categorische feature Numerieke feature Binaire target
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A -999 1
5 A 2.6 0
6 A 5.3 0
Een Kaggle-competitie winnen met Python

Ontbrekende data imputeren

 

Numerieke data

  • Imputatie met gemiddelde/mediaan
  • Imputatie met vaste waarde

Categorische data

  • Imputatie met meest voorkomende categorie
  • Nieuwe categorie imputeren
ID Categorische feature Numerieke feature Binaire target
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A -999 1
5 MISS 2.6 0
6 A 5.3 0
Een Kaggle-competitie winnen met Python

Ontbrekende data vinden

df.isnull().head(1)
         ID       cat       num    target
0     False     False     False     False
df.isnull().sum()
ID        0
cat       1
num       1
target    0
Een Kaggle-competitie winnen met Python

Numerieke ontbrekende data

# Import SimpleImputer
from sklearn.impute import SimpleImputer

# Verschillende soorten imputers mean_imputer = SimpleImputer(strategy='mean') constant_imputer = SimpleImputer(strategy='constant', fill_value=-999)
# Imputatie df[['num']] = mean_imputer.fit_transform(df[['num']])
Een Kaggle-competitie winnen met Python

Categorische ontbrekende data

# Import SimpleImputer
from sklearn.impute import SimpleImputer

# Verschillende soorten imputers
frequent_imputer = SimpleImputer(strategy='most_frequent')
constant_imputer = SimpleImputer(strategy='constant', fill_value='MISS')

# Imputatie df[['cat']] = constant_imputer.fit_transform(df[['cat']])
Een Kaggle-competitie winnen met Python

Laten we oefenen!

Een Kaggle-competitie winnen met Python

Preparing Video For Download...