Häufige Datenprobleme

Einführung in die Datenkompetenz

Jess Ahmet

Content Developer, DataCamp

Schmutzige Daten

  • Schmutzige Daten sind:

    • Falsch
    • Unvollständig
    • Inkonsistent
  • Verursacht durch menschliches Versagen, technische Probleme oder Probleme bei der Datenerfassung

  • „Garbage In, Garbage Out“-Konzept: Schmutzige Daten können zu falschen Schlussfolgerungen führen

Schmutziges Fenster

Einführung in die Datenkompetenz

Datenfehler

  • Die Daten sind falsch oder inkonsistent
  • Meist durch menschliche oder technische Fehler bei der Aufzeichnung des Wertes oder des Formats verursacht
  • Gegenmaßnahmen:
    • Wenn der Originalwert oder das gültige Format bekannt ist: Daten korrigieren
    • Wenn unbekannt: Daten verwerfen

Puzzle mit dem falschen Teil

Einführung in die Datenkompetenz

Fehlende Daten

  • Daten sind unvollständig
  • Problematisch, wenn:
    • viele Datenpunkte fehlen
    • den fehlenden Daten Muster zugrunde liegen
  • Gegenmaßnahmen:
    • Daten verwerfen
    • Vervollständigung

Puzzle mit fehlendem Teil

Einführung in die Datenkompetenz

Datenverzerrung

  • Gesellschaftliche Verzerrungen können sich in Daten als Datenverzerrung niederschlagen
  • Führt zu nicht repräsentativen Daten und damit Ergebnissen
  • Schwer zu erkennen und zu lösen
  • Gegenmaßnahmen:
    • Solide Datenerhebung
    • Bewusstsein in Schlussfolgerungen
    • Erklärbare KI-Modelle

Graues Puzzle, bei dem die weißen Teile weggelassen wurden

Einführung in die Datenkompetenz

Datenbereinigung

  • Techniken zur Bekämpfung von Datenproblemen
  • Wichtiger Vorbereitungsschritt für jede Datenanalyse
  • Aber nicht alle Datenprobleme sind (vollständig) lösbar
  • Es ist immer möglich, eine Art von Analyse durchzuführen

Behandschuhte Hand mit Sprühflasche

Einführung in die Datenkompetenz

Lass uns üben!

Einführung in die Datenkompetenz

Preparing Video For Download...