Parabéns

Análise Exploratória de Dados em Python

George Boorman

Curriculum Manager, DataCamp

Inspeção e validação

um histograma das avaliações dos livros

books["year"] = books["year"].astype(int)
books.dtypes
name       object
author     object
rating    float64
year        int64
genre      object
dtype: object
Análise Exploratória de Dados em Python

Agregação

books.groupby("genre").agg(
    mean_rating=("rating", "mean"),
    std_rating=("rating", "std"),
    median_year=("year", "median")
)
|  genre      | mean_rating | std_rating | median_year |
|-------------|-------------|------------|-------------|
|   Childrens |    4.780000 |   0.122370 |      2015.0 |
|     Fiction |    4.570229 |   0.281123 |      2013.0 |
| Non Fiction |    4.598324 |   0.179411 |      2013.0 |
Análise Exploratória de Dados em Python

Tratar dados ausentes

print(salaries.isna().sum())
Working_Year            12
Designation             27
Experience              33
Employment_Status       31
Employee_Location       28
Company_Size            40
Remote_Working_Ratio    24
Salary_USD              60
dtype: int64
Análise Exploratória de Dados em Python

Tratar dados ausentes

  • Excluir valores ausentes

 

  • Imputar média, mediana, moda

 

  • Imputar por subgrupo

 

salaries_dict = salaries.groupby("Experience")["Salary_USD"].median().to_dict()
salaries["Salary_USD"] = salaries["Salary_USD"].fillna(salaries["Experience"].map(salaries_dict))
Análise Exploratória de Dados em Python

Analisar dados categóricos

salaries["Job_Category"] = np.select(conditions, 
                                     job_categories, 
                                     default="Other")

Gráfico de barras mostrando a contagem de empregos por categoria

Análise Exploratória de Dados em Python

Aplicar funções lambda

Aplique uma função lambda

salaries["std_dev"] = salaries.groupby("Experience")["Salary_USD"].transform(lambda x: x.std())
Análise Exploratória de Dados em Python

Lidar com discrepâncias

sns.boxplot(data=salaries,
            y="Salary_USD")
plt.show()

Gráfico de caixa dos salários dos profissionais de dados, mostrando o percentil 25 na parte inferior da caixa, o percentil 50 na linha do meio e o percentil 75 na parte superior da caixa

Análise Exploratória de Dados em Python

Padrões ao longo do tempo

sns.lineplot(data=divorce, x="marriage_month", y="marriage_duration")
plt.show()

Um gráfico de linha mostrando a relação entre o mês do casamento e a duração do casamento

Análise Exploratória de Dados em Python

Correlação

sns.heatmap(divorce.corr(numeric_only=True), annot=True)
plt.show()

Um mapa de calor das correlações do divórcio

Análise Exploratória de Dados em Python

Distribuições

sns.kdeplot(data=divorce, x="marriage_duration", hue="education_man", cut=0)
plt.show()

kde da duração do casamento com hue definido como education_man e cut igual a zero

Análise Exploratória de Dados em Python

Tabulação cruzada

pd.crosstab(planes["Source"], planes["Destination"],
            values=planes["Price"], aggfunc="median")
Destination  Banglore   Cochin   Delhi  Hyderabad  Kolkata  New Delhi
Source                                                               
Banglore          NaN      NaN  4823.0        NaN      NaN    10976.5
Chennai           NaN      NaN     NaN        NaN   3850.0        NaN
Delhi             NaN  10262.0     NaN        NaN      NaN        NaN
Kolkata        9345.0      NaN     NaN        NaN      NaN        NaN
Mumbai            NaN      NaN     NaN     3342.0      NaN        NaN
Análise Exploratória de Dados em Python

pd.cut()

Forneça os agrupamentos

planes["Price_Category"] = pd.cut(planes["Price"],
                                  labels=labels,
                                  bins=bins)
Análise Exploratória de Dados em Python

Data snooping

Mapa de calor com pontuações do coeficiente de correlação para cada número de paradas

Análise Exploratória de Dados em Python

Elaboração de hipóteses

sns.barplot(data=planes, x="Airline", y="Duration")
plt.show()

Gráfico de barras da duração versus companhia aérea

Análise Exploratória de Dados em Python

Próximas etapas

Análise Exploratória de Dados em Python

Parabéns!

Análise Exploratória de Dados em Python

Preparing Video For Download...