Menangani nilai hilang (I)

Rekayasa Fitur untuk Machine Learning di Python

Robert O'Callaghan

Director of Data Science, Ordergroove

Penghapusan baris lengkap

      SurveyDate      ConvertedSalary     Hobby ... \
0  2/28/18 20:20                  NaN       Yes ...
1  6/28/18 13:26              70841.0       Yes ...
2    6/6/18 3:37                  NaN        No ...
3    5/9/18 1:06              21426.0       Yes ...
4  4/12/18 22:41              41671.0       Yes ...
Rekayasa Fitur untuk Machine Learning di Python

Penghapusan baris lengkap di Python

# Hapus semua baris dengan minimal satu nilai hilang
df.dropna(how='any')
Rekayasa Fitur untuk Machine Learning di Python

Penghapusan baris lengkap di Python

# Hapus baris dengan nilai hilang pada kolom tertentu
df.dropna(subset=['VersionControl'])
Rekayasa Fitur untuk Machine Learning di Python

Masalah dengan penghapusan

  • Menghapus data valid
  • Bergantung pada keacakan
  • Mengurangi informasi
Rekayasa Fitur untuk Machine Learning di Python

Mengganti dengan string

# Ganti nilai hilang di kolom tertentu
# dengan string tertentu
df['VersionControl'].fillna(
    value='None Given', inplace=True
)
Rekayasa Fitur untuk Machine Learning di Python

Merekam nilai hilang

# Catat lokasi nilai yang tidak hilang
df['SalaryGiven'] = df['ConvertedSalary'].notnull()
# Hapus kolom tertentu
df.drop(columns=['ConvertedSalary'])
Rekayasa Fitur untuk Machine Learning di Python

Ayo berlatih!

Rekayasa Fitur untuk Machine Learning di Python

Preparing Video For Download...