Hypotheses opstellen

Exploratory Data Analysis in Python

George Boorman

Curriculum Manager, DataCamp

Wat weten we?

Countplot met aantal vluchten per maatschappij in prijsklassen; Jet Airways heeft de meeste First Class-tickets

Exploratory Data Analysis in Python

Wat weten we?

sns.heatmap(planes.corr(numeric_only=True), annot=True)
plt.show()

Heatmap met Pearson-correlaties tussen variabelen in de planes-dataset

Exploratory Data Analysis in Python

Schijncorrelatie

sns.scatterplot(data=planes, x="Duration", y="Price", hue="Total_Stops")
plt.show()

Spreidingsdiagram van prijs versus duur, met Total_Stops

Exploratory Data Analysis in Python

Hoe weten we dat?

Heatmap met correlaties per aantal tussenstops

Exploratory Data Analysis in Python

Wat is waar?

Typemachine met de tekst "Fake News"

  • Zouden data uit een andere periode dezelfde resultaten geven?

  • Relaties, verschillen en patronen detecteren:

    • We gebruiken Hypothesetoetsing
  • Voor hypothesetoetsing heb je vóórdat je data verzamelt nodig:

    • Een hypothese of vraag formuleren
    • Bepalen welke statistische test je gebruikt
1 Image credit: https://unsplash.com/@markuswinkler
Exploratory Data Analysis in Python

Data snooping

 

kantoor met uitzicht op een luchthavenbaan

Vergrootglas dat in een staafdiagram kijkt

Exploratory Data Analysis in Python

Hypotheses opstellen

sns.barplot(data=planes, x="Airline", y="Duration")
plt.show()

Staafdiagram van duur per luchtvaartmaatschappij

Exploratory Data Analysis in Python

Hypotheses opstellen

sns.barplot(data=planes, x="Destination", y="Price")
plt.show()

Staafdiagram met gemiddelde prijs

Exploratory Data Analysis in Python

Volgende stappen

  • Ontwerp ons experiment

  • Omvat stappen zoals:

    • Een steekproef kiezen
    • Bepalen hoeveel datapunten we nodig hebben
    • Kiezen welke statistische test we draaien
Exploratory Data Analysis in Python

Laten we oefenen!

Exploratory Data Analysis in Python

Preparing Video For Download...