¡Enhorabuena!

Análisis exploratorio de datos en Python

George Boorman

Curriculum Manager, DataCamp

Inspección y validación

Histograma de valoraciones de libros

books["year"] = books["year"].astype(int)
books.dtypes
name       object
author     object
rating    float64
year        int64
genre      object
dtype: object
Análisis exploratorio de datos en Python

Agregación

books.groupby("genre").agg(
    mean_rating=("rating", "mean"),
    std_rating=("rating", "std"),
    median_year=("year", "median")
)
|  genre      | mean_rating | std_rating | median_year |
|-------------|-------------|------------|-------------|
|   Childrens |    4.780000 |   0.122370 |      2015.0 |
|     Fiction |    4.570229 |   0.281123 |      2013.0 |
| Non Fiction |    4.598324 |   0.179411 |      2013.0 |
Análisis exploratorio de datos en Python

Gestionar los datos que faltan

print(salaries.isna().sum())
Working_Year            12
Designation             27
Experience              33
Employment_Status       31
Employee_Location       28
Company_Size            40
Remote_Working_Ratio    24
Salary_USD              60
dtype: int64
Análisis exploratorio de datos en Python

Gestionar los datos que faltan

  • Eliminar los valores que faltan

 

  • Imputar media, mediana, moda

 

  • Imputar por subgrupo

 

salaries_dict = salaries.groupby("Experience")["Salary_USD"].median().to_dict()
salaries["Salary_USD"] = salaries["Salary_USD"].fillna(salaries["Experience"].map(salaries_dict))
Análisis exploratorio de datos en Python

Analizar datos categóricos

salaries["Job_Category"] = np.select(conditions, 
                                     job_categories, 
                                     default="Other")

Gráfico de barras que muestra el recuento de trabajos por categoría

Análisis exploratorio de datos en Python

Aplicar funciones lambda

Aplica una función lambda

salaries["std_dev"] = salaries.groupby("Experience")["Salary_USD"].transform(lambda x: x.std())
Análisis exploratorio de datos en Python

Manejar los valores atípicos

sns.boxplot(data=salaries,
            y="Salary_USD")
plt.show()

Gráfico de caja de los salarios de los profesionales de datos, que muestra el percentil 25 en la parte inferior del gráfico, el percentil 50 como línea media y el percentil 75 en la parte superior del gráfico

Análisis exploratorio de datos en Python

Patrones a lo largo del tiempo

sns.lineplot(data=divorce, x="marriage_month", y="marriage_duration")
plt.show()

Gráfico lineal que muestra la relación entre el mes del matrimonio y la duración del matrimonio

Análisis exploratorio de datos en Python

Correlación

sns.heatmap(divorce.corr(numeric_only=True), annot=True)
plt.show()

Mapa de calor de las correlaciones entre divorcios

Análisis exploratorio de datos en Python

Distribuciones

sns.kdeplot(data=divorce, x="marriage_duration", hue="education_man", cut=0)
plt.show()

KDE de duración del matrimonio con hue establecido en education_man y cut igual a cero

Análisis exploratorio de datos en Python

Tabulación cruzada

pd.crosstab(planes["Source"], planes["Destination"],
            values=planes["Price"], aggfunc="median")
Destination  Banglore   Cochin   Delhi  Hyderabad  Kolkata  New Delhi
Source                                                               
Banglore          NaN      NaN  4823.0        NaN      NaN    10976.5
Chennai           NaN      NaN     NaN        NaN   3850.0        NaN
Delhi             NaN  10262.0     NaN        NaN      NaN        NaN
Kolkata        9345.0      NaN     NaN        NaN      NaN        NaN
Mumbai            NaN      NaN     NaN     3342.0      NaN        NaN
Análisis exploratorio de datos en Python

pd.cut()

Proporciona los bins

planes["Price_Category"] = pd.cut(planes["Price"],
                                  labels=labels,
                                  bins=bins)
Análisis exploratorio de datos en Python

Data snooping

Mapa de calor con puntuaciones del coeficiente de correlación para cada número de paradas

Análisis exploratorio de datos en Python

Generar hipótesis

sns.barplot(data=planes, x="Airline", y="Duration")
plt.show()

Gráfico de barras de duración frente a aerolínea

Análisis exploratorio de datos en Python

Próximos pasos

Análisis exploratorio de datos en Python

¡Enhorabuena!

Análisis exploratorio de datos en Python

Preparing Video For Download...