Data hilang

Memenangi Kompetisi Kaggle dengan Python

Yauhen Babakhin

Kaggle Grandmaster

Data hilang

ID Fitur kategorikal Fitur numerik Target biner
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A NaN 1
5 NaN 2.6 0
6 A 5.3 0
Memenangi Kompetisi Kaggle dengan Python

Imputasi data hilang

 

Data numerik

  • Imputasi mean/median
ID Fitur kategorikal Fitur numerik Target biner
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A NaN 1
5 NaN 2.6 0
6 A 5.3 0
Memenangi Kompetisi Kaggle dengan Python

Imputasi data hilang

 

Data numerik

  • Imputasi mean/median
  • Imputasi nilai konstan
ID Fitur kategorikal Fitur numerik Target biner
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A 4.72 1
5 NaN 2.6 0
6 A 5.3 0
Memenangi Kompetisi Kaggle dengan Python

Imputasi data hilang

 

Data numerik

  • Imputasi mean/median
  • Imputasi nilai konstan
ID Fitur kategorikal Fitur numerik Target biner
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A -999 1
5 NaN 2.6 0
6 A 5.3 0
Memenangi Kompetisi Kaggle dengan Python

Imputasi data hilang

 

Data numerik

  • Imputasi mean/median
  • Imputasi nilai konstan

Data kategorikal

  • Imputasi kategori tersering
ID Fitur kategorikal Fitur numerik Target biner
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A -999 1
5 NaN 2.6 0
6 A 5.3 0
Memenangi Kompetisi Kaggle dengan Python

Imputasi data hilang

 

Data numerik

  • Imputasi mean/median
  • Imputasi nilai konstan

Data kategorikal

  • Imputasi kategori tersering
  • Imputasi kategori baru
ID Fitur kategorikal Fitur numerik Target biner
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A -999 1
5 A 2.6 0
6 A 5.3 0
Memenangi Kompetisi Kaggle dengan Python

Imputasi data hilang

 

Data numerik

  • Imputasi mean/median
  • Imputasi nilai konstan

Data kategorikal

  • Imputasi kategori tersering
  • Imputasi kategori baru
ID Fitur kategorikal Fitur numerik Target biner
1 A 5.1 1
2 B 7.2 0
3 C 3.4 0
4 A -999 1
5 MISS 2.6 0
6 A 5.3 0
Memenangi Kompetisi Kaggle dengan Python

Temukan data hilang

df.isnull().head(1)
         ID       cat       num    target
0     False     False     False     False
df.isnull().sum()
ID        0
cat       1
num       1
target    0
Memenangi Kompetisi Kaggle dengan Python

Data numerik hilang

# Import SimpleImputer
from sklearn.impute import SimpleImputer

# Jenis imputasi berbeda mean_imputer = SimpleImputer(strategy='mean') constant_imputer = SimpleImputer(strategy='constant', fill_value=-999)
# Imputasi df[['num']] = mean_imputer.fit_transform(df[['num']])
Memenangi Kompetisi Kaggle dengan Python

Data kategorikal hilang

# Import SimpleImputer
from sklearn.impute import SimpleImputer

# Jenis imputasi berbeda
frequent_imputer = SimpleImputer(strategy='most_frequent')
constant_imputer = SimpleImputer(strategy='constant', fill_value='MISS')

# Imputasi df[['cat']] = constant_imputer.fit_transform(df[['cat']])
Memenangi Kompetisi Kaggle dengan Python

Ayo berlatih!

Memenangi Kompetisi Kaggle dengan Python

Preparing Video For Download...