Omgaan met missende waarden (I)

Feature engineering voor Machine Learning in Python

Robert O'Callaghan

Director of Data Science, Ordergroove

Listwise deletion

      SurveyDate      ConvertedSalary     Hobby ... \
0  2/28/18 20:20                  NaN       Yes ...
1  6/28/18 13:26              70841.0       Yes ...
2    6/6/18 3:37                  NaN        No ...
3    5/9/18 1:06              21426.0       Yes ...
4  4/12/18 22:41              41671.0       Yes ...
Feature engineering voor Machine Learning in Python

Listwise deletion in Python

# Verwijder rijen met minimaal één missende waarde
df.dropna(how='any')
Feature engineering voor Machine Learning in Python

Listwise deletion in Python

# Verwijder rijen met missende waarden in een specifieke kolom
df.dropna(subset=['VersionControl'])
Feature engineering voor Machine Learning in Python

Problemen met verwijderen

  • Het verwijdert geldige datapunten
  • Gaat uit van willekeur
  • Vermindert informatie
Feature engineering voor Machine Learning in Python

Vervangen door strings

# Vervang missende waarden in een specifieke kolom
# door een gegeven string
df['VersionControl'].fillna(
    value='None Given', inplace=True
)
Feature engineering voor Machine Learning in Python

Missende waarden registreren

# Leg vast waar waarden niet missen
df['SalaryGiven'] = df['ConvertedSalary'].notnull()
# Verwijder een specifieke kolom
df.drop(columns=['ConvertedSalary'])
Feature engineering voor Machine Learning in Python

Tijd om te oefenen

Feature engineering voor Machine Learning in Python

Preparing Video For Download...