Reproduceerbaarheid en referenties

Concepten voor datacommunicatie

Hadrien Lacroix

Curriculum Manager

Schriftelijk rapport

 

Een rapport moet duidelijk en reproduceerbaar zijn.

Concepten voor datacommunicatie

Voorbeeld reproduceerbaarheid

 

  • Een cake bakken

    • Recept
    • Ruwe ingrediënten
    • Onze oven en meetspullen
    • Cake met vergelijkbare smaak
  • Dataproject

    • Analyse opnieuw draaien - dezelfde resultaten

 

pictogram kookrecept

Concepten voor datacommunicatie

Voorbeeld repliceerbaarheid

  • Een cake bakken
    • Eigen gereedschap
    • Eigen ingrediënten
  • Dataproject
    • Andere omgeving
Concepten voor datacommunicatie

Pluspunten van reproduceerbaarheid en repliceerbaarheid

 

  • Voorkomt dubbel werk
  • Bouwt voort op bestaand werk
  • Focus op nieuwe uitdagingen
  • Peer review
  • Tool-onafhankelijk
Concepten voor datacommunicatie

Best practices

  1. Houd bij hoe resultaten zijn verkregen
    • Scripts goed documenteren
      • Commentaar in code
    • Lijst met pakketten en omgeving
    • Versiebeheer
Concepten voor datacommunicatie

Best practices

  1. Houd bij hoe resultaten zijn verkregen
  2. Vermijd handmatige datamanipulatie
    • Dataversiebeheer
    • Sla ruwe data en tussenstappen op
    • Pas aan en los problemen op
    • Voorbeeld: imputatie
      • ontbrekende waarden imputeren met het gemiddelde
      • sla op en sluit editor
      • hoe weet je welke waarden vervangen zijn?
Concepten voor datacommunicatie

Best practices

  1. Houd bij hoe resultaten zijn verkregen
  2. Vermijd handmatige datamanipulatie
  3. Beheer willekeur
    • Random seeds voor ML-pipelines
    • Beheerst confounders
Concepten voor datacommunicatie

Best practices

  1. Houd bij hoe resultaten zijn verkregen
  2. Vermijd handmatige datamanipulatie
  3. Documenteer willekeur
  4. Interpreteerbaarheid
    • Begrijp de oorzaak van een beslissing of voorspel modeluitkomst
    • Verhaal met een sterke lijn
    • Koppeling met reproduceerbaarheid
1 Molnar C. Interpretable Machine Learning. 2019.
Concepten voor datacommunicatie

Best practices

  1. Houd bij hoe resultaten zijn verkregen
  2. Vermijd handmatige datamanipulatie
  3. Documenteer willekeur
  4. Interpreteerbaarheid
  5. Citeer bronnen correct
Concepten voor datacommunicatie

Referenties

 

  • Een citatie is de basisinfo om een publicatie te identificeren en vinden
Concepten voor datacommunicatie

Referenties

 

  • Verschillende stijlen, zelfde logica
    • Boek: Naam auteur (Jaar). Titel. Uitgever.
    • Tijdschriftartikel: Naam auteur. (Jaar) 'Titel van het artikel.' Titel tijdschrift, Jaargang, Nummer, Paginanummers.
    • Website: Naam auteur. Datum publicatie, 'Titel van pagina/werk.' Titel website, Locatie

 

  • APA-stijl:
    • In-tekst citaties (auteur, datum)
Concepten voor datacommunicatie

Referentie

  • Referentiebeheertools
    • Makkelijker bijhouden
    • Wisselen tussen stijlen
    • Zoek referentie online
    • Opties:
      • EndNote
      • Mendeley
      • RefWorks
Concepten voor datacommunicatie

Referenties

  • Bedrijfscontext
    • Minder strikt
    • Eenvoudiger (hyperlink)
    • ==> info beschikbaar en terugvindbaar
Concepten voor datacommunicatie

Laten we oefenen!

Concepten voor datacommunicatie

Preparing Video For Download...