Continue ontbrekende waarden invullen

Feature engineering voor Machine Learning in Python

Robert O'Callaghan

Director of Data Science, Ordergroove

Missende waarden verwijderen

  • In de testset kun je rijen met missende waarden niet verwijderen
Feature engineering voor Machine Learning in Python

Wat kun je nog doen?

  • Categorische kolommen: Vervang missende waarden door de meest voorkomende waarde of een string als 'None' om ze te markeren
  • Numerieke kolommen: Vervang missende waarden door een passende waarde
Feature engineering voor Machine Learning in Python

Maten van centrale neiging

  • Gemiddelde
  • Mediaan
Feature engineering voor Machine Learning in Python

De centrale maten berekenen

print(df['ConvertedSalary'].mean())
print(df['ConvertedSalary'].median())
92565.16992481203
55562.0
Feature engineering voor Machine Learning in Python

De missende waarden invullen

df['ConvertedSalary'] = df['ConvertedSalary'].fillna(
    df['ConvertedSalary'].mean()
)
df['ConvertedSalary'] = df['ConvertedSalary']\
                         .astype('int64')
Feature engineering voor Machine Learning in Python

Afronden

df['ConvertedSalary'] = df['ConvertedSalary'].fillna(
    round(df['ConvertedSalary'].mean())
)
Feature engineering voor Machine Learning in Python

Laten we oefenen!

Feature engineering voor Machine Learning in Python

Preparing Video For Download...