Databases en kwaliteitscontroles

De mystiek van Decision Science ontrafeld

Howard Friedman

Adjunct Professor at Columbia University

Databronnen triageren

Niet alle data is even nuttig

  • Sommige datasets vereisen veel opschoning of missen bruikbare features
  • Andere zijn de moeite niet waard

 

Triageren helpt snel prioriteren

  • Beoordeel of een dataset haalbaar is vóór je tijd en middelen investeert

Begin met beschikbaarheid

  • Is de data makkelijk toegankelijk of achter een paywall
  • Zijn er permissie- of beveiligingsbarrières
  • Vroeg oplossen voorkomt verspilde moeite

triage.png

De mystiek van Decision Science ontrafeld

Belangrijke controles

Overweeg kosten

  • Zijn er licentie- of toegangsfees
  • Moet je betalen voor opslag of specialistische tools

Beoordeel bruikbaarheid

  • Bevat de dataset wat je nodig hebt voor je analyse
  • Check scope, detail, volledigheid en relevantie van features

Controleer updatefrequentie

  • Realtime voorspellingen vereisen realtime of regelmatig geüpdatete data
  • Mismatch in updatecycli kan data onbruikbaar maken

Beoordeel geografische resolutie

  • Sluit de data aan op het ruimtelijk niveau dat je nodig hebt
  • Landelijke data helpt niet als je postcode-niveau nodig hebt
De mystiek van Decision Science ontrafeld

Controles voor datakwaliteit

Datakwaliteit telt

  • Slechte data ruïneert modellen en leidt tot slechte besluiten
  • "Garbage in, garbage out" is echt in decision science

GIGO.png

Let op missingness

  • Percentage missende waarden per kolom
  • Patronen die wijzen op diepere verzamelissues

Doe eenvoudige bereikcontroles

  • Zijn er waarden die niet kloppen voor jouw context
  • Voorbeelden: leeftijd = 450 of prijs = -$10
  • Gebruik checks om grote issues vroeg te signaleren
De mystiek van Decision Science ontrafeld

Meer controles

Beoordeel uitschieters

  • Gebruik histogrammen of boxplots om te visualiseren
  • Overleg met stakeholders vóór je iets uitsluit

Beoordeel actualiteit

  • Is je data recent genoeg om relevant te zijn
  • Snel veranderende contexten vragen om vaak geüpdatete data

Zorg voor consistente opmaak

  • Let op inconsistente datumnotaties, spelfouten of kolomnamen die niet matchen
  • Schoon en standaardiseer om problemen bij analyse te voorkomen

QA.png

De mystiek van Decision Science ontrafeld

Laten we oefenen!

De mystiek van Decision Science ontrafeld

Preparing Video For Download...