Wat is statistiek?

Inleiding tot statistiek in R

Maggie Matsui

Content Developer, DataCamp

Wat is statistiek?

  • Het vakgebied statistiek - het verzamelen en analyseren van data

  • Een samenvattingsstatistiek - een feit of samenvatting over data

Inleiding tot statistiek in R

Wat is statistiek?

  • Het vakgebied statistiek - het verzamelen en analyseren van data

  • Een samenvattingsstatistiek - een feit of samenvatting over data

Wat kan statistiek doen?

  • Hoe groot is de kans dat iemand een product koopt? Kopen mensen het sneller met een ander betaalsysteem?
  • Hoeveel bezetting heeft je hotel? Hoe optimaliseer je die?
  • Hoeveel jeansmaten moet je maken om 95% van de bevolking te passen? Moet je van elke maat evenveel produceren?
  • A/B-tests: welke advertentie zet meer mensen aan tot kopen?
Inleiding tot statistiek in R

Wat kan statistiek niet?

  • Waarom is Game of Thrones zo populair?

In plaats daarvan...

  • Krijgen series met meer geweld meer kijkers?

Maar...

  • Zelfs dan weten we niet of meer geweld tot meer kijkers leidt
Inleiding tot statistiek in R

Soorten statistiek

Beschrijvende statistiek

  • Beschrijft en vat data samen

2 auto's, 1 bus, 1 fiets

  • 50% van de vrienden gaat met de auto
  • 25% met de bus
  • 25% met de fiets

Inferentiële statistiek

  • Gebruikt een steekproef om conclusies te trekken over een grotere populatie

2 auto's, 1 bus, 1 fiets omringd door meer auto's, bussen en fietsen

Welk percentage gaat met de auto naar het werk?

Inleiding tot statistiek in R

Datatypen

Numeriek (kwantitatief)

  • Continu (gemeten)
    • Snelheid van een vliegtuig
    • Wachttijd in de rij
  • Discreet (geteld)
    • Aantal huisdieren
    • Aantal verzonden pakketten

Categoriëel (kwalitatief)

  • Nominaal (ongeordend)
    • Gehuwd/ongehuwd
    • Woonland
  • Ordinaal (geordend)

helemaal oneens/een beetje oneens/noch eens noch oneens/een beetje eens/helemaal eens

Inleiding tot statistiek in R

Categorische data kun je als nummers weergeven

Nominaal (ongeordend)

  • Gehuwd/ongehuwd (1/0)
  • Woonland (1, 2, ...)

Ordinaal (geordend)

  • Helemaal oneens (1)
  • Een beetje oneens (2)
  • Noch eens noch oneens (3)
  • Een beetje eens (4)
  • Helemaal eens (5)
Inleiding tot statistiek in R

Waarom is het datatype belangrijk?

Samenvattingsstatistiek
car_speeds %>% 
  summarize(avg_speed = mean(speed_mph))
  avg_speed
1  40.09062
Grafieken

spreidingsdiagram van autosnelheid vs autogewicht

Inleiding tot statistiek in R

Waarom is het datatype belangrijk?

Samenvattingsstatistiek
demographics %>% 
  count(marriage_status)
  marriage_status     n
1          single   188
2         married   143
3        divorced   124
Grafieken

staafdiagram van aantallen naar burgerlijke staat

Inleiding tot statistiek in R

Laten we oefenen!

Inleiding tot statistiek in R

Preparing Video For Download...