Explorative Datenanalyse

End-to-End Machine Learning

Joshua Stapleton

Machine Learning Engineer

Der EDA‑Prozess

Ein Diagramm mit den EDA‑Bestandteilen am Herzkrankheitsdatensatz

df.head()

# Print the first 5 rows
print(heart_disease_df.head())

Die ersten 5 Zeilen unseres Herzkrankheits-DataFrames. Ergebnis von df.head().

df.info()

# Print out details
print(heart_disease_df.info())

Zusammenfassung unseres Herzkrankheits-DataFrames. Ergebnis von df.info().

df.value_counts()

# print the class balance
print(heart_disease_df['target'].value_counts(normalize=True))

Die Klassenverteilung der Zielspalte unseres Herzkrankheits-DataFrames. Ergebnis von .value_counts() auf der Zielspalte.

Nutze df.isnull()

Verwendung

# prüfen, ob alle Werte in einer Spalte null sind
print(heart_disease_df['oldpeak'].isnull().all())

True

Ausreißerwerte
- Messfehler
- Tippfehler bei der Dateneingabe
- Seltene Ereignisse
Können die Modellleistung verzerren
- Modell lernt von Extremwerten
- Erfasst den allgemeinen Trend nicht
Manchmal nützlich:
- Seltene Werte
- Erkennung: Boxplot oder IQR nutzen

Eine Visualisierung, die einen Ausreißer zeigt.

Visualisierungen zeigen:

Weitere Visualisierungen:

df['age'].plot(kind='hist')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

Eine Visualisierung der Altersverteilung im Datensatz.

¹ https://seaborn.pydata.org/tutorial/distributions.html, https://app.datacamp.com/learn/courses/intermediate-data-visualization-with-seaborn

Daten verstehen

Ausreißer erkennen

Hypothesen formulieren

Annahmen prüfen

End-to-End Machine Learning