Wat is statistiek?

Inleiding tot statistiek in Python

Maggie Matsui

Content Developer, DataCamp

Wat is statistiek?

  • Het vakgebied statistiek - het verzamelen en analyseren van data

  • Een samenvattende statistiek - een feit of samenvatting van data

Inleiding tot statistiek in Python

Wat kan statistiek doen?

Wat is statistiek?

  • Het vakgebied statistiek - het verzamelen en analyseren van data

  • Een samenvattende statistiek - een feit of samenvatting van data

Wat kan statistiek doen?

  • Hoe groot is de kans dat iemand een product koopt? Is die groter met een ander betalingssysteem?
  • Hoeveel bezetting heeft je hotel? Hoe kun je die optimaliseren?
  • Hoeveel jeansmaten moeten worden gemaakt om 95% van de bevolking te passen? Moet van elke maat evenveel worden geproduceerd?
  • A/B-tests: welke advertentie zet mensen vaker aan tot kopen?
Inleiding tot statistiek in Python

Wat kan statistiek niet?

  • Waarom is Game of Thrones zo populair?

In plaats daarvan...

  • Krijgen series met meer gewelddadige scènes meer kijkers?

Maar...

  • Zelfs dan weten we niet of meer geweld tot meer views leidt
Inleiding tot statistiek in Python

Soorten statistiek

Beschrijvende statistiek

  • Beschrijft en vat data samen

2 auto's, 1 bus, 1 fiets

  • 50% van de vrienden gaat met de auto
  • 25% met de bus
  • 25% met de fiets

Inferentiële statistiek

  • Gebruik een steekproef om inferenties te maken over een populatie

2 auto's, 1 bus, 1 fiets omringd door meer auto's, bussen en fietsen

Welk percentage gaat met de auto naar het werk?

Inleiding tot statistiek in Python

Typen data

Numeriek (kwantitatief)

  • Continu (gemeten)
    • Snelheid van een vliegtuig
    • Tijd wachten in de rij
  • Discreet (geteld)
    • Aantal huisdieren
    • Aantal verzonden pakketten

Categoraal (kwalitatief)

  • Nominaal (ongeordend)
    • Getrouwd/ongetrouwd
    • Land van verblijf
  • Ordinaal (geordend)

helemaal mee oneens/een beetje mee oneens/noch eens noch oneens/een beetje mee eens/helemaal mee eens

Inleiding tot statistiek in Python

Categorische data kan als getallen worden weergegeven

Nominaal (ongeordend)

  • Getrouwd/ongetrouwd (1/0)
  • Land van verblijf (1, 2, ...)

Ordinaal (geordend)

  • Helemaal mee oneens (1)
  • Een beetje mee oneens (2)
  • Noch eens noch oneens (3)
  • Een beetje mee eens (4)
  • Helemaal mee eens (5)
Inleiding tot statistiek in Python

Waarom is het datatype belangrijk?

Samenvattende statistieken
import numpy as np
np.mean(car_speeds['speed_mph'])
40.09062
Grafieken

spreidingsdiagram van auto­snelheid vs auto­gewicht

Inleiding tot statistiek in Python

Waarom is het datatype belangrijk?

Samenvattende statistieken
demographics['marriage_status'].value_counts()
single      188
married     143
divorced    124
dtype: int64
Grafieken

staafdiagram van aantal huwelijksstatussen

Inleiding tot statistiek in Python

Laten we oefenen!

Inleiding tot statistiek in Python

Preparing Video For Download...