Ontbrekende data en imputatie

Introductie tot Python in Power BI

Jacob H. Marquez

Data Scientist

Wat is ontbrekende data?

Veelvoorkomende waarden voor “ontbrekend”:

  • null
  • NA
  • 99
  • ""
Introductie tot Python in Power BI

Wat is ontbrekende data?

Veelvoorkomende waarden voor “ontbrekend”:

  • null
  • NA
  • 99
  • ""
entity year fished
Australia 1988 153148
Australia 1989 null
Australia 1990 567895
Australia 1991 632987
Australia 1992 643578
Australia 1993 null
Introductie tot Python in Power BI

Waarom ontbreekt data?

  • Deelnemer vergat of weigerde te antwoorden in een enquête
  • Deelnemer haakte af voor deel 2 van een studie
  • Storing in het meetinstrument
  • Privacywetgeving beperkt datagebruik
Introductie tot Python in Power BI

Ontbreekt het willekeurig?

Willekeurig ontbrekend

Tabel met neerslag, in inches, voor drie steden: Seattle, New York City en Parijs.

Introductie tot Python in Power BI

Ontbreekt het willekeurig?

Niet willekeurig ontbrekend

Tabel met neerslag, in inches, voor drie steden: Seattle, New York City en Parijs. Eén rij voor Seattle ontbreekt.

Introductie tot Python in Power BI

Ontbreekt het willekeurig?

Niet willekeurig ontbrekend

Tabel met neerslag, in inches, voor drie steden: Seattle, New York City en Parijs. Eén rij voor Seattle ontbreekt.

  • Instrument detecteert lage waarden niet
  • Bepaalde groepen delen info minder snel
Introductie tot Python in Power BI

Hoe ga je om met ontbrekende data?

Niet willekeurig ontbrekend

  • Pauzeer de analyse
  • Begrijp waarom data ontbreekt
  • Verzamel extra data
  • Documenteer beperkingen en aannames duidelijk

Willekeurig ontbrekend

  • Verwijder de observaties
  • Voeg een indicatorvariabele toe: ontbreekt = 1, anders = 0
  • Imputatie
Introductie tot Python in Power BI

Imputatie

Definitie: een ontbrekende waarde vervangen door een andere.

Typen imputatie:

  • Gemiddelde
  • Mediaan
  • Modus
  • Vorige of volgende waarde

Beste als ≤ 5% van de kolom ontbreekt.

Vergeet niet te sorteren!

Introductie tot Python in Power BI

Imputatie - voorbeeld

Willekeurig ontbrekend

Tabel met neerslag, in inches, voor drie steden: Seattle, New York City en Parijs, met ontbrekende observaties.

Mediaanimputatie

Tabel met neerslag, in inches, voor drie steden: Seattle, New York City en Parijs. Ontbrekende waarden gevuld met de mediaan per stad.

Introductie tot Python in Power BI

Dataset

Invoice StockCode Description Quantity InvoiceDate Price Customer ID
506303 PADS PADS TO MATCH ALL CUSHIONS 1 4/29/2010 10:43:00 AM 0.001 14249
496725 M Manual 1 2/3/2010 2:16:00 PM 1.5 13619
502660 M Manual 6 3/25/2010 5:18:00 PM 1.5 13187
509669 90214S LETTER "S" BLING KEY RING 10 12/13/2009 3:54:00 PM 1.25 16725
Introductie tot Python in Power BI

Laten we oefenen!

Introductie tot Python in Power BI

Preparing Video For Download...