Ontbrekende data en uitschieters

Statistiek-vragen voor sollicitaties oefenen in Python

Conor Dewey

Data Scientist, Squarespace

Omgaan met ontbrekende data

  • Verwijder de hele rij
  • Imputeer ontbrekende waarden
Statistiek-vragen voor sollicitaties oefenen in Python

Verwijder de hele rij

df.dropna(inplace=True)

 

Statistiek-vragen voor sollicitaties oefenen in Python

Imputeer ontbrekende waarden

  • Constante waarde
  • Willekeurig gekozen record
  • Gemiddelde, mediaan of modus
  • Waarde geschat door een ander model
Statistiek-vragen voor sollicitaties oefenen in Python

Handige functies

  • isnull()
  • dropna()
  • fillna()
Statistiek-vragen voor sollicitaties oefenen in Python

Omgaan met uitschieters

  • Standaarddeviaties
  • Interkwartielafstand (IQR)
Statistiek-vragen voor sollicitaties oefenen in Python

Standaarddeviaties

 

Gaussische curve

1 Wikimedia
Statistiek-vragen voor sollicitaties oefenen in Python

Interkwartielafstand (IQR)

  IQR gevisualiseerd

1 Wikimedia
Statistiek-vragen voor sollicitaties oefenen in Python

Samenvatting

  • Verwijder de hele rij
  • Imputeer ontbrekende waarden
  • Standaarddeviaties
  • Interkwartielafstand
Statistiek-vragen voor sollicitaties oefenen in Python

Laten we ons voorbereiden op het interview!

Statistiek-vragen voor sollicitaties oefenen in Python

Preparing Video For Download...