Uitschieters verwijderen

Feature engineering voor Machine Learning in Python

Robert O'Callaghan

Director of Data Science, Ordergroove

Wat zijn uitschieters?

Verdelingsafbeelding

Feature engineering voor Machine Learning in Python

Detectie op basis van quantielen

Feature engineering voor Machine Learning in Python

Quantielen in Python

q_cutoff = df['col_name'].quantile(0.95)

mask = df['col_name'] < q_cutoff

trimmed_df = df[mask]
Feature engineering voor Machine Learning in Python

Detectie op basis van standaarddeviatie

Feature engineering voor Machine Learning in Python

Standaarddeviatie-detectie in Python

mean = df['col_name'].mean()
std = df['col_name'].std()

cut_off = std * 3 lower, upper = mean - cut_off, mean + cut_off
new_df = df[(df['col_name'] < upper) & (df['col_name'] > lower)]
Feature engineering voor Machine Learning in Python

Laten we oefenen!

Feature engineering voor Machine Learning in Python

Preparing Video For Download...