Veelvoorkomende dataproblemen

Introductie tot data-geletterdheid

Jess Ahmet

Content Developer, DataCamp

Vervuilde data

  • Vervuilde data is:

    • Onjuist
    • Onvolledig
    • Inconsistent
  • Oorzaak: menselijke fouten, technische issues of problemen bij dataverzameling

  • Garbage in, garbage out: vervuilde data leidt tot verkeerde conclusies

Vuil raam

Introductie tot data-geletterdheid

Datafouten

  • Data is onjuist of inconsistent
  • Meestal door menselijke of technische fouten in waarde of formaat
  • Oplossen:
    • Als oorspronkelijke waarde of geldig formaat bekend is: corrigeren
    • Zo niet: verwijderen

Puzzel met verkeerd stuk

Introductie tot data-geletterdheid

Ontbrekende data

  • Data is onvolledig
  • Probleem als:
    • Veel waarden ontbreken
    • Er patronen zitten in de ontbrekende data
  • Aanpakken:
    • Data verwijderen
    • Imputatie

Puzzel met ontbrekend stuk

Introductie tot data-geletterdheid

Databias

  • Maatschappelijke bias kan in data terechtkomen als databias
  • Leidt tot niet-representatieve data en dus resultaten
  • Moeilijk te vinden en op te lossen
  • Tegengaan met:
    • Degelijk dataverzamelingsproces
    • Bewustzijn in conclusies
    • Explainable AI-modellen

Grijze puzzel met witte stukken die ontbreken

Introductie tot data-geletterdheid

Data opschonen

  • Set aan technieken om dataproblemen te verhelpen
  • Belangrijke voorbereiding voor elke data-analyse
  • Niet alle dataproblemen zijn (volledig) oplosbaar
  • Je kunt altijd wel iets analyseren

Geblauwde hand met spuitfles

Introductie tot data-geletterdheid

Laten we oefenen!

Introductie tot data-geletterdheid

Preparing Video For Download...