Félicitations

Analyse de données exploratoires en Python

George Boorman

Curriculum Manager, DataCamp

Inspection et validation

un histogramme des évaluations des livres

books["year"] = books["year"].astype(int)
books.dtypes
name       object
author     object
rating    float64
year        int64
genre      object
dtype: object
Analyse de données exploratoires en Python

Agrégation

books.groupby("genre").agg(
    mean_rating=("rating", "mean"),
    std_rating=("rating", "std"),
    median_year=("year", "median")
)
|  genre      | mean_rating | std_rating | median_year |
|-------------|-------------|------------|-------------|
|   Childrens |    4.780000 |   0.122370 |      2015.0 |
|     Fiction |    4.570229 |   0.281123 |      2013.0 |
| Non Fiction |    4.598324 |   0.179411 |      2013.0 |
Analyse de données exploratoires en Python

Traiter les données manquantes

print(salaries.isna().sum())
Working_Year            12
Designation             27
Experience              33
Employment_Status       31
Employee_Location       28
Company_Size            40
Remote_Working_Ratio    24
Salary_USD              60
dtype: int64
Analyse de données exploratoires en Python

Traiter les données manquantes

  • Supprimer les valeurs manquantes

 

  • Imputer la moyenne, la médiane et le mode

 

  • Imputation par sous-groupe

 

salaries_dict = salaries.groupby("Experience")["Salary_USD"].median().to_dict()
salaries["Salary_USD"] = salaries["Salary_USD"].fillna(salaries["Experience"].map(salaries_dict))
Analyse de données exploratoires en Python

Analyser des données catégorielles

salaries["Job_Category"] = np.select(conditions, 
                                     job_categories, 
                                     default="Other")

Graphique à barres affichant le nombre de tâches par catégorie

Analyse de données exploratoires en Python

Appliquer des fonctions lambda

Appliquer une fonction lambda

salaries["std_dev"] = salaries.groupby("Experience")["Salary_USD"].transform(lambda x: x.std())
Analyse de données exploratoires en Python

Gérer les valeurs aberrantes

sns.boxplot(data=salaries,
            y="Salary_USD")
plt.show()

Graphique en boîtes représentant les salaires des professionnels des données, avec le 25e centile en bas de la boîte, le 50e centile au milieu et le 75e centile en haut de la boîte

Analyse de données exploratoires en Python

Les tendances au fil du temps

sns.lineplot(data=divorce, x="marriage_month", y="marriage_duration")
plt.show()

![Graphique représentant la relation entre le mois du mariage et la durée du mariage] (https://assets.datacamp.com/production/repositories/6180/datasets/65ea5213afa3bf6e1227c8d6f58c4f56b9fbf57d/marriage_lineplot.png = 45)

Analyse de données exploratoires en Python

Corrélation

sns.heatmap(divorce.corr(numeric_only=True), annot=True)
plt.show()

Carte thermique des corrélations entre les divorces

Analyse de données exploratoires en Python

Distributions

sns.kdeplot(data=divorce, x="marriage_duration", hue="education_man", cut=0)
plt.show()

kde de la durée du mariage avec teinte définie sur education_man et intersection à zéro

Analyse de données exploratoires en Python

Tableau croisé

pd.crosstab(planes["Source"], planes["Destination"],
            values=planes["Price"], aggfunc="median")
Destination  Banglore   Cochin   Delhi  Hyderabad  Kolkata  New Delhi
Source                                                               
Banglore          NaN      NaN  4823.0        NaN      NaN    10976.5
Chennai           NaN      NaN     NaN        NaN   3850.0        NaN
Delhi             NaN  10262.0     NaN        NaN      NaN        NaN
Kolkata        9345.0      NaN     NaN        NaN      NaN        NaN
Mumbai            NaN      NaN     NaN     3342.0      NaN        NaN
Analyse de données exploratoires en Python

pd.cut()

Veuillez fournir les conteneurs.

planes["Price_Category"] = pd.cut(planes["Price"],
                                  labels=labels,
                                  bins=bins)
Analyse de données exploratoires en Python

Espionnage de données

![Carte thermique avec les scores du coefficient de corrélation pour chaque nombre d'arrêts] (https://assets.datacamp.com/production/repositories/6180/datasets/9a42a0764a6c47bfc0df95c388360f3cfec7820a/heatmap_with_different_stops.png = 68)

Analyse de données exploratoires en Python

Générer des hypothèses

sns.barplot(data=planes, x="Airline", y="Duration")
plt.show()

![Graphique à barres représentant la durée en fonction de la compagnie aérienne] (https://assets.datacamp.com/production/repositories/6180/datasets/cf0ed6e3fb30efa5106d4e78c810fc9852561bd0/duration_vs_airline.png = 45)

Analyse de données exploratoires en Python

Étapes suivantes

Analyse de données exploratoires en Python

Félicitations !

Analyse de données exploratoires en Python

Preparing Video For Download...