Análise Exploratória de Dados

Machine Learning de ponta a ponta

Joshua Stapleton

Machine Learning Engineer

O processo de EDA

Um diagrama mostrando componentes da EDA aplicados ao conjunto de pacientes com doença cardíaca

df.head()

# Print the first 5 rows
print(heart_disease_df.head())

As 5 primeiras linhas do nosso DataFrame de doença cardíaca. Resultado de chamar df.head().

df.info()

# Print out details
print(heart_disease_df.info())

Informações resumidas do nosso DataFrame de doença cardíaca. Resultado de chamar df.info().

df.value_counts()

# print the class balance
print(heart_disease_df['target'].value_counts(normalize=True))

O balanceamento da classe na coluna alvo do nosso DataFrame de doença cardíaca. Resultado de chamar .value_counts() na coluna target.

Use df.isnull()

Uso

# check whether all values in a column are null
print(heart_disease_df['oldpeak'].isnull().all())

True

Valores anômalos
- Erros de medição
- Erros de digitação
- Eventos raros
Podem distorcer o modelo
- O modelo aprende pelos extremos
- Não capta a tendência geral
Às vezes são úteis:
- Valores raros
- Detecção: boxplot ou IQR

Uma visualização mostrando um outlier.

Visualizações mostram:

Outros tipos de visualização:

df['age'].plot(kind='hist')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

Uma visualização mostrando a distribuição de idades no nosso conjunto de dados.

¹ https://seaborn.pydata.org/tutorial/distributions.html, https://app.datacamp.com/learn/courses/intermediate-data-visualization-with-seaborn

Entender os dados

Detectar outliers

Formular hipóteses

Checar suposições

Machine Learning de ponta a ponta