Générer des hypothèses

Analyse de données exploratoires en Python

George Boorman

Curriculum Manager, DataCamp

Que savons-nous ?

Graphique indiquant le nombre de vols par compagnie aérienne dans différentes catégories de prix, Jet Airways ayant le plus grand nombre de billets en première classe

Analyse de données exploratoires en Python

Que savons-nous ?

sns.heatmap(planes.corr(numeric_only=True), annot=True)
plt.show()

Carte thermique illustrant les coefficients de corrélation de Pearson entre les variables de l'ensemble de données sur les avions

Analyse de données exploratoires en Python

Corrélation fallacieuse

sns.scatterplot(data=planes, x="Duration", y="Price", hue="Total_Stops")
plt.show()

![Graphique représentant le prix en fonction de la durée, en tenant compte du nombre total d'arrêts] (https://assets.datacamp.com/production/repositories/6180/datasets/9246242fed240d822415bbcfc45c4103eaebdd3c/scatterplot_of_price_vs_duration_factoring_total_stops.png = 50)

Analyse de données exploratoires en Python

Comment le savons-nous ?

![Carte thermique avec les scores du coefficient de corrélation pour chaque nombre d'arrêts] (https://assets.datacamp.com/production/repositories/6180/datasets/4d4a4a3c4bc46bd1950356d2a6a1dd2835a8c911/heatmap_with_different_stops.jpg = 72)

Analyse de données exploratoires en Python

Qu'est-ce qui est vrai ?

  • Les données provenant d'une autre période donneraient-elles les mêmes résultats ?

  • Détecter les relations, les différences et les tendances :

    • Nous utilisons le test d'hypothèse.
  • Avant la collecte des données, le test d'hypothèse nécessite :

    • Formuler une hypothèse ou une question
    • Une décision concernant le test statistique à utiliser
1 Crédit d'image : https://unsplash.com/@markuswinkler
Analyse de données exploratoires en Python

Espionnage de données

 

Bureau avec vue sur une piste d'aéroport

Loupe regardant un histogramme

Analyse de données exploratoires en Python

Générer des hypothèses

sns.barplot(data=planes, x="Airline", y="Duration")
plt.show()

![Graphique à barres représentant la durée en fonction de la compagnie aérienne] (https://assets.datacamp.com/production/repositories/6180/datasets/cf0ed6e3fb30efa5106d4e78c810fc9852561bd0/duration_vs_airline.png = 48)

Analyse de données exploratoires en Python

Générer des hypothèses

sns.barplot(data=planes, x="Destination", y="Price")
plt.show()
Analyse de données exploratoires en Python

Étapes suivantes

  • Concevez notre expérience

  • Cela implique les étapes suivantes :

    • Sélectionner un échantillon
    • Calculer le nombre de points de données nécessaires
    • Choisir le test statistique à effectuer
Analyse de données exploratoires en Python

Passons à la pratique !

Analyse de données exploratoires en Python

Preparing Video For Download...