Reproduceerbaarheid en referenties

Concepten voor datacommunicatie

Hadrien Lacroix

Curriculum Manager

Schriftelijk rapport

 

Een rapport moet duidelijk en reproduceerbaar zijn.

Concepten voor datacommunicatie

Voorbeeld reproduceerbaarheid

 

  • Een cake bakken

    • Recept
    • Ruwe ingrediënten
    • Onze oven en keukenhulpmiddelen
    • Cake met een vergelijkbare smaak
  • Dataproject

    • Analyse opnieuw draaien - zelfde resultaten

 

pictogram kookrecept

Concepten voor datacommunicatie

Voorbeeld repliceerbaarheid

  • Een cake bakken
    • Eigen gerei
    • Eigen ingrediënten
  • Dataproject
    • Andere omgeving
Concepten voor datacommunicatie

De waarde van reproduceerbaarheid en repliceerbaarheid

 

  • Voorkomt dubbel werk
  • Bouwt voort op bestaand werk
  • Focus op nieuwe uitdagingen
  • Peer review
  • Tool-agnostisch
Concepten voor datacommunicatie

Best practices

  1. Houd bij hoe resultaten zijn verkregen
    • Scripts goed documenteren
      • Commentaar in code
    • Pakketten en omgeving vermelden
    • Versiebeheer
Concepten voor datacommunicatie

Best practices

  1. Houd bij hoe resultaten zijn verkregen
  2. Vermijd handmatige datamanipulatie
    • Dataversiebeheer
    • Ruwe data en tussenstappen bewaren
    • Aanpassen en problemen oplossen
    • Voorbeeld: data-imputatie
      • ontbrekende waarden imputeren met het gemiddelde
      • opslaan en editor sluiten
      • hoe weet je welke waarden eerst zijn vervangen?
Concepten voor datacommunicatie

Best practices

  1. Houd bij hoe resultaten zijn verkregen
  2. Vermijd handmatige datamanipulatie
  3. Beheer willekeur
    • Random seeds voor ML-pijplijnen
    • Beheerst confounders
Concepten voor datacommunicatie

Best practices

  1. Houd bij hoe resultaten zijn verkregen
  2. Vermijd handmatige datamanipulatie
  3. Documenteer willekeur
  4. Interpreteerbaarheid
    • Begrijp de oorzaak van een beslissing of voorspel modeluitkomsten
    • Verhaal met overtuigende rode draad
    • Koppeling met reproduceerbaarheid
1 Molnar C. Interpretable Machine Learning. 2019.
Concepten voor datacommunicatie

Best practices

  1. Houd bij hoe resultaten zijn verkregen
  2. Vermijd handmatige datamanipulatie
  3. Documenteer willekeur
  4. Interpreteerbaarheid
  5. Citeer literatuur correct
Concepten voor datacommunicatie

Referenties

 

  • Een citatie is de basisinfo om een publicatie te identificeren en te vinden
Concepten voor datacommunicatie

Referenties

 

  • Verschillende stijlen, zelfde logica
    • Boek: Naam auteur (Jaar). Titel. Uitgever.
    • Tijdschriftartikel: Naam auteur. (Jaar) 'Titel van artikel.' Titel tijdschrift, Jaargang, Nummer, Paginanummers.
    • Website: Naam auteur. Publicatiedatum, 'Titel van pagina/werk.' Titel van website, Locatie

 

  • APA-stijl:
    • In-tekst citaties (auteur, datum)
Concepten voor datacommunicatie

Referentie

  • Referentiebeheertools
    • Makkelijker bijhouden
    • Wisselen tussen stijlen
    • Referenties online zoeken
    • Opties:
      • EndNote
      • Mendeley
      • RefWorks
Concepten voor datacommunicatie

Referenties

  • Zakelijke context
    • Minder strikt
    • Simpeler (hyperlink)
    • ==> info beschikbaar en terugvindbaar
Concepten voor datacommunicatie

Laten we oefenen!

Concepten voor datacommunicatie

Preparing Video For Download...