Uitschieters en schalen

Machine Learning-sollicitatievragen oefenen in Python

Lisa Stuart

Data Scientist

Uitschieters

  • Een of meer observaties die ver van de rest liggen binnen een feature.

Uitschieters in data

1 https://bolt.mph.ufl.edu/6050-6052/unit-1/one-quantitative-variable-introduction/understanding-outliers/
Machine Learning-sollicitatievragen oefenen in Python

Interkwartielafstand (IQR)

Data IQR

1 By Jhguch at en.wikipedia, CC BY-SA 2.5, https://commons.wikimedia.org/w/index.php?curid=14524285
Machine Learning-sollicitatievragen oefenen in Python

Best-passende lijn

Lineair model fit

1 https://www.r-bloggers.com/outlier-detection-and-treatment-with-r/
Machine Learning-sollicitatievragen oefenen in Python

Functies voor uitschieters

Functie retourneert
sns.boxplot(x= , y='Loan Status') boxplot geconditioneerd op doelvariabele
sns.distplot() histogram en kernel-dichtheid (kde)
np.abs() absolute waarde
stats.zscore() berekende z-score
mstats.winsorize(limits=[0.05, 0.05]) bodemplafond toegepast op uitschieters
np.where(condition, true, false) vervangen waarden
Machine Learning-sollicitatievragen oefenen in Python

Hoge vs. lage variantie

Varianties

1 https://machinelearningmastery.com/a-gentle-introduction-to-calculating-normal-summary-statistics/
Machine Learning-sollicitatievragen oefenen in Python

Standaardiseren vs normaliseren

  • Standaardiseren:
    • Z-score-standaardisatie
    • Schaal naar gemiddelde 0 en sd 1

Formule z-score-standaardisatie

  • Normaliseren:
    • Min/max-normalisatie
    • Schaalt naar (0, 1)

Formule min-max-scaling

1 https://medium.com/@rrfd/standardize-or-normalize-examples-in-python-e3f174b65dfc
Machine Learning-sollicitatievragen oefenen in Python

Schaalfuncties

  • scikit-learn.preprocessing.StandardScaler() --> (mean=0, sd=1)
  • sklearn.preprocessing.MinMaxScaler() --> (0,1)
Machine Learning-sollicitatievragen oefenen in Python

Uitschieters en schalen

Hoe herken en behandel je uitschieters? Wat doet min/max of z-score-standaardisatie met data? Kies de ware uitspraak:

  • Een uitschieter is een punt net buiten het bereik van vergelijkbare punten in een feature.
  • In een context waar ze afwijkend zijn, helpen uitschieters bij het bouwen van een voorspellend ML-model.
  • Min/max-scaling geeft data gemiddelde 0, SD 1 en verhoogt de variantie.
  • Z-score-standaardisatie schaalt naar (0,1) en verbetert de modelfit.
Machine Learning-sollicitatievragen oefenen in Python

Uitschieters en schalen: antwoord

Hoe herken en behandel je uitschieters? Wat doet min/max of z-score-standaardisatie met data? Het juiste antwoord is:

  • In een context waar ze afwijkend zijn, helpen uitschieters bij het bouwen van een voorspellend ML-model. (Data-afwijkingen komen vaak voor bij fraudedetectie, cybersecurity en andere scenario's waar je ze juist wilt vinden.)
Machine Learning-sollicitatievragen oefenen in Python

Uitschieters en schalen: onjuiste antwoorden

Hoe herken en behandel je uitschieters? Wat doet min/max of z-score-standaardisatie met data?

  • Een uitschieter ligt net buiten het bereik van vergelijkbare punten. (Verdacht pas bij > 1,5× de IQR.)
  • Min/max-scaling geeft gemiddelde 0, SD 1 en verhoogt variantie. (Min/max schaalt naar (0,1); of variantie stijgt of daalt hangt af van de originele data.)
  • Z-score-standaardisatie schaalt naar (0,1) en verbetert modelfit. (Z-score zet gemiddelde op 0 en sd op 1; dit kan modelfit verbeteren.)
Machine Learning-sollicitatievragen oefenen in Python

Nog één ding...

Voorbewerking-stappen

Machine Learning-sollicitatievragen oefenen in Python

Laten we oefenen!

Machine Learning-sollicitatievragen oefenen in Python

Preparing Video For Download...