Análisis exploratorio de datos

Machine Learning de extremo a extremo

Joshua Stapleton

Machine Learning Engineer

Proceso de EDA

Un diagrama con varios componentes del EDA aplicado al dataset de cardiopatías de pacientes

df.head()

# Print the first 5 rows
print(heart_disease_df.head())

Las primeras 5 filas de nuestro DataFrame de cardiopatías. Resultado de llamar a df.head().

df.info()

# Print out details
print(heart_disease_df.info())

Información resumida de nuestro DataFrame de cardiopatías. Resultado de llamar a df.info().

df.value_counts()

# print the class balance
print(heart_disease_df['target'].value_counts(normalize=True))

El balance de clases de la columna target de nuestro DataFrame de cardiopatías. Resultado de .value_counts() sobre target.

Usa df.isnull()

Uso

# check whether all values in a column are null
print(heart_disease_df['oldpeak'].isnull().all())

True

Valores anómalos
- Errores de medición
- Errores de registro
- Eventos raros
Pueden sesgar el modelo
- Aprende por valores extremos
- No capta la tendencia general
A veces útiles:
- Valores raros
- Detección: usa boxplot o IQR

Una visualización que muestra un valor atípico.

Las visualizaciones muestran:

Otros tipos:

df['age'].plot(kind='hist')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

Una visualización que muestra la distribución de la edad en nuestro conjunto de datos.

¹ https://seaborn.pydata.org/tutorial/distributions.html, https://app.datacamp.com/learn/courses/intermediate-data-visualization-with-seaborn

Entender los datos

Detectar atípicos

Formular hipótesis

Comprobar supuestos

Machine Learning de extremo a extremo