Eksik değerlerle başa çıkma (I)

Python ile Machine Learning için Özellik Mühendisliği

Robert O'Callaghan

Director of Data Science, Ordergroove

Tümden silme (listwise deletion)

      SurveyDate      ConvertedSalary     Hobby ... \
0  2/28/18 20:20                  NaN       Yes ...
1  6/28/18 13:26              70841.0       Yes ...
2    6/6/18 3:37                  NaN        No ...
3    5/9/18 1:06              21426.0       Yes ...
4  4/12/18 22:41              41671.0       Yes ...
Python ile Machine Learning için Özellik Mühendisliği

Python'da tümden silme

# En az bir eksik değeri olan tüm satırları düşürün
df.dropna(how='any')
Python ile Machine Learning için Özellik Mühendisliği

Python'da tümden silme

# Belirli bir sütunda eksik değer olan satırları düşürün
df.dropna(subset=['VersionControl'])
Python ile Machine Learning için Özellik Mühendisliği

Silmenin sorunları

  • Geçerli verileri de siler
  • Rastgeleliğe dayanır
  • Bilgiyi azaltır
Python ile Machine Learning için Özellik Mühendisliği

Dizelerle değiştirme

# Belirli bir sütundaki eksik değerleri
# verilen bir dize ile değiştirin
df['VersionControl'].fillna(
    value='None Given', inplace=True
)
Python ile Machine Learning için Özellik Mühendisliği

Eksik değerleri kaydetme

# Değerlerin eksik olmadığı yerleri kaydedin
df['SalaryGiven'] = df['ConvertedSalary'].notnull()
# Belirli bir sütunu düşürün
df.drop(columns=['ConvertedSalary'])
Python ile Machine Learning için Özellik Mühendisliği

Alıştırma zamanı

Python ile Machine Learning için Özellik Mühendisliği

Preparing Video For Download...