Exploratory Data Analysis

End-to-End Machine Learning

Joshua Stapleton

Machine Learning Engineer

Het EDA-proces

Een diagram met onderdelen van EDA toegepast op de hartziekte-dataset van patiënten

df.head()

# Print de eerste 5 rijen
print(heart_disease_df.head())

De eerste 5 rijen van onze heart disease-DataFrame. Resultaat van df.head().

df.info()

# Print details
print(heart_disease_df.info())

Samenvatting van onze heart disease-DataFrame. Resultaat van df.info().

df.value_counts()

# print de class balance
print(heart_disease_df['target'].value_counts(normalize=True))

De klassenbalans van de target-kolom van onze heart disease-DataFrame. Resultaat van .value_counts() op target.

Gebruik df.isnull()

Gebruik

# check of alle waarden in een kolom null zijn
print(heart_disease_df['oldpeak'].isnull().all())

True

Afwijkende waarden
- Meetfouten
- Invoervouten
- Zeldzame gebeurtenissen
Kunnen modelprestatie scheeftrekken
- Model leert op extreme waarden
- Vangt algemene trend niet
Soms nuttig:
- Zeldzame waarden
- Detectie: boxplot of IQR

Een visualisatie met een uitschieter.

Visualisaties tonen:

Andere visualisaties:

df['age'].plot(kind='hist')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

Een visualisatie van de leeftijdsverdeling in onze dataset.

¹ https://seaborn.pydata.org/tutorial/distributions.html, https://app.datacamp.com/learn/courses/intermediate-data-visualization-with-seaborn

Begrijp de data

Vind uitschieters

Formuleer hypotheses

Check aannames

End-to-End Machine Learning