Überlegungen zu kategorialen Daten

Explorative Datenanalyse in Python

George Boorman

Curriculum Manager, DataCamp

Was spricht für EDA?

  • Erkennen von Mustern und Zusammenhängen

 

 

  • Fragen aufwerfen oder Hypothesen aufstellen

 

 

  • Daten für maschinelles Lernen aufbereiten

Fragezeichen in roter Neonfarbe

1 Bildnachweis: https://unsplash.com/@simonesecci
Explorative Datenanalyse in Python

Repräsentative Daten

  • Stichprobe repräsentiert die Grundgesamtheit

Zum Beispiel:

  • Verhältnis von Bildung und Einkommen in den USA
    • Daten aus Frankreich sind unbrauchbar

US-Flagge

Frankreich-Flagge

1 Bildnachweis: https://unsplash.com/@cristina_glebova; https://unsplash.com/@nimbus_vulpis
Explorative Datenanalyse in Python

Kategoriale Klassen

  • Klassen = Labels

 

  • Befragung von Personen bzgl. ihrer Einstellung zur Ehe
    • Familienstand
      • Ledig
      • Verheiratet
      • Geschieden
Explorative Datenanalyse in Python

Klassenungleichgewicht

Balkendiagramm, das die Anzahl der Familienstände in einer Stichprobe zeigt – 700 geschieden, 250 ledig und 50 verheiratet

Explorative Datenanalyse in Python

Klassenhäufigkeit

print(planes["Destination"].value_counts())
Cochin       4391
Banglore     2773
Delhi        1219
New Delhi     888
Hyderabad     673
Kolkata       369
Name: Destination, dtype: int64
Explorative Datenanalyse in Python

Relative Klassenhäufigkeit

  • 40 % der Flüge innerhalb Indiens haben Delhi als Ziel.
planes["Destination"].value_counts(normalize=True)
Cochin       0.425773
Banglore     0.268884
Delhi        0.118200
New Delhi    0.086105
Hyderabad    0.065257
Kolkata      0.035780
Name: Destination, dtype: float64
  • Ist unsere Stichprobe repräsentativ für die Grundgesamtheit (Inlandsflüge in Indien)?
Explorative Datenanalyse in Python

Kreuztabellen

pd-dot-crosstab aufrufen

pd.crosstab(
Explorative Datenanalyse in Python

Auswahl des Index

Spalte auswählen, die als Index verwendet werden soll

pd.crosstab(planes["Source"],
Explorative Datenanalyse in Python

Auswahl der Spalten

Spalte auswählen

pd.crosstab(planes["Source"], planes["Destination"])
Explorative Datenanalyse in Python

Kreuztabellen

Destination  Banglore  Cochin  Delhi  Hyderabad  Kolkata  New Delhi
Source                                                             
Banglore            0       0   1199          0        0        868
Chennai             0       0      0          0      364          0
Delhi               0    4318      0          0        0          0
Kolkata          2720       0      0          0        0          0
Mumbai              0       0      0        662        0          0
Explorative Datenanalyse in Python

Erweiterung der Kreuztabelle

Source Destination Median Price (IDR)
Banglore Delhi 4232.21
Banglore New Delhi 12114.56
Chennai Kolkata 3859.76
Delhi Cochin 9987.63
Kolkata Banglore 9654.21
Mumbai Hyderabad 3431.97
Explorative Datenanalyse in Python

Aggregierte Werte mit pd.crosstab()

pd.crosstab(planes["Source"], planes["Destination"],

values=planes["Price"], aggfunc="median")
Destination  Banglore   Cochin   Delhi  Hyderabad  Kolkata  New Delhi
Source                                                               
Banglore          NaN      NaN  4823.0        NaN      NaN    10976.5
Chennai           NaN      NaN     NaN        NaN   3850.0        NaN
Delhi             NaN  10262.0     NaN        NaN      NaN        NaN
Kolkata        9345.0      NaN     NaN        NaN      NaN        NaN
Mumbai            NaN      NaN     NaN     3342.0      NaN        NaN
Explorative Datenanalyse in Python

Vergleich von Stichprobe und Grundgesamtheit

Source Destination Median Price (IDR) Median Price (dataset)
Banglore Delhi 4232.21 4832.0
Banglore New Delhi 12114.56 10976.50
Chennai Kolkata 3859.76 3850.0
Delhi Cochin 9987.63 10260.0
Kolkata Banglore 9654.21 9345.0
Mumbai Hyderabad 3431.97 3342.0
Explorative Datenanalyse in Python

Lass uns üben!

Explorative Datenanalyse in Python

Preparing Video For Download...