Reproduzierbarkeit und Quellenangaben

Konzepte der Datenkommunikation

Hadrien Lacroix

Curriculum Manager

Schriftlicher Bericht

 

Ein Bericht muss klar und reproduzierbar sein.

Konzepte der Datenkommunikation

Beispiel für die Reproduzierbarkeit

 

  • Kuchen backen

    • Rezept
    • Zutaten
    • Unser Ofen und unsere Küchengeräte
    • Kuchen mit ähnlichem Geschmack
  • Datenprojekt

    • Analyse nochmal machen – gleiche Ergebnisse

 

Kochrezept-Symbol

Konzepte der Datenkommunikation

Beispiel für die Reproduzierbarkeit

  • Kuchen backen
    • Eigene Utensilien
    • Eigene Zutaten
  • Datenprojekt
    • Andere Umgebung
Konzepte der Datenkommunikation

Vorteile der Reproduzierbarkeit und Replizierbarkeit

 

  • Verhindert doppelte Arbeit
  • Auf bereits Vorhandenem aufbauen
  • Auf neue Herausforderungen konzentrieren
  • Peer Review
  • Unabhängig vom Tool
Konzepte der Datenkommunikation

Bewährte Vorgehensweisen

  1. Protokollieren, wie Ergebnisse erzielt wurden
    • Skripte gut dokumentieren
      • Kommentare im Code
    • Pakete und verwendete Umgebung auflisten
    • Versionskontrolle
Konzepte der Datenkommunikation

Bewährte Vorgehensweisen

  1. Protokollieren, wie Ergebnisse erzielt wurden
  2. Vermeide manuelle Datenbearbeitung
    • Datenversionierung
    • Rohdaten und Zwischenschritte speichern
    • Anpassen und Probleme lösen
    • Beispiel: Datenimputation
      • Fehlende Werte mit dem Durschnitt ergänzen
      • Editor speichern und schließen
      • Wie kann man herausfinden, welche Werte überhaupt ersetzt wurden?
Konzepte der Datenkommunikation

Bewährte Vorgehensweisen

  1. Protokollieren, wie Ergebnisse erzielt wurden
  2. Vermeide manuelle Datenbearbeitung
  3. Kontrolliere die Zufälligkeit
    • Zufällige Startwerte für ML-Pipelines
    • Reduziert Störvariablen
Konzepte der Datenkommunikation

Bewährte Vorgehensweisen

  1. Protokollieren, wie Ergebnisse erzielt wurden
  2. Vermeide manuelle Datenbearbeitung
  3. Zufälligkeit dokumentieren
  4. Interpretierbarkeit
    • Entscheidungen verstehen oder Modellergebnisse vorhersagen
    • Story mit fesselnder Narrative
    • Mit Reproduzierbarkeit verbunden
1 Molnar C. Interpretable Machine Learning. 2019.
Konzepte der Datenkommunikation

Bewährte Vorgehensweisen

  1. Protokollieren, wie Ergebnisse erzielt wurden
  2. Vermeide manuelle Datenbearbeitung
  3. Zufälligkeit dokumentieren
  4. Interpretierbarkeit
  5. Bibliografie richtig zitieren
Konzepte der Datenkommunikation

Referenzen

 

  • Eine Quellenangabe ist die grundlegenden Information, die man benötigt, um eine bestimmte Publikation zu finden und zu identifizieren.
Konzepte der Datenkommunikation

Referenzen

 

  • Verschiedene Stile, aber dieselbe Logik dahinter
    • Buch: Autorenname (Jahr). Titel. Herausgeber.
    • Zeitschriftenartikel: Autorenname. (Jahr) „Titel des Artikels“. Zeitschriftentitel, Bandnummer, Ausgabenummer, Seitenzahlen.
    • Website: Autorenname. Veröffentlichungsdatum, „Titel der Seite/des Werks“. Name der Website, Standort

 

  • APA-Stil:
    • In Textzitaten (Autor, Datum)
Konzepte der Datenkommunikation

Referenzen

  • Tools zum Verwalten von Referenzen
    • Besserer Überblick
    • Zwischen Stilen wechseln
    • Referenz online suchen
    • Beispiele:
      • EndNote
      • Mendeley
      • RefWorks
Konzepte der Datenkommunikation

Referenzen

  • Business-Kontext
    • Weniger streng
    • Einfacher (Hyperlink)
    • ==>; Informationen sind verfügbar und abrufbar
Konzepte der Datenkommunikation

Lass uns üben!

Konzepte der Datenkommunikation

Preparing Video For Download...