Spreidingsmaten

Inleiding tot statistiek

George Boorman

Curriculum Manager, DataCamp

Wat is spreiding?

histogram van voertuigmisdrijven met brede spreiding.png

histogram van inbraken met smalle spreiding.png

Inleiding tot statistiek

Waarom is spreiding belangrijk?

  • Spreiding meet de variatie in onze data

 

  • T-shirts kosten meestal $30

    • Kunnen $10–200 kosten
    • Hoe groot is de kans dat er één $30 kost?
  • Als T-shirts tussen $20–50 kosten

    • Verandert dat de kans om er één voor $30 te vinden?

T‑shirt aan een muurhanger.jpg

1 Beeldbron: https://unsplash.com/@uyk
Inleiding tot statistiek

Bereik

 

${range} = maximum - minimum$

 

${range(Burglaries)} = 5,183 - 1,432$

${range(Burglaries)} = 3,751$

Borough Inbraak
Tower Hamlets 5,183
Hackney 5,079
Barnet 5,067
... ...
Sutton 1,815
Bexley 1,583
Kingston upon Thames 1,432
Inleiding tot statistiek

Variantie

Een dotplot met een rode lijn in het midden die het gemiddelde weergeeft.png

Inleiding tot statistiek

Variantie

variance_plot_waarin de afstand tussen Westminster en het gemiddelde wordt getoond.png

Inleiding tot statistiek

Variantie

Borough Totaal aantal misdrijven Gemiddelde Afstand
Barking and Dagenham 37,939 47,672 -9,733
Barnet 52,421 47,672 4,749
Bexley 29,285 47,672 -18,387
Brent 55,465 47,672 7,793
Bromley 42,982 47,672 -4,690
Camden 54,806 47,672 7,134
... ... ... ...
Totaal 1,525,492 1,525,492 0
Inleiding tot statistiek

Variantie

Borough Totaal aantal misdrijven Gemiddelde Afstand Kwadraatafstand
Barking and Dagenham 37,939 47,672 -9,733 94,731,289
Barnet 52,421 47,672 4,749 22,553,001
Bexley 29,285 47,672 -18,387 338,081,769
Brent 55,465 47,672 7,793 60,730,849
Bromley 42,982 47,672 -4,690 21,996,100
Camden 54,806 47,672 7,134 50,893,956
... ... ... ... ...
Totaal 1,525,492 1,525,492 0 7,509,750,824
Inleiding tot statistiek

Variantie

 

$${variance(total \ crime)} = \frac{7,509,750,824}{32}$$

$${variance(total \ crime)} = \ 234,679,713$$

Inleiding tot statistiek

Standaardafwijking

${standard \ deviation(total \ crime)} = {\sqrt( variance(total \ crime))}$

${standard \ deviation(total \ crime)} = {\sqrt(234,679,713)}$

${standard \ deviation(total \ crime)} = 15,319.26$

  • Standaardafwijking dicht bij nul = data rond het gemiddelde
Inleiding tot statistiek

Standaardafwijking in een histogram

histogram van voertuigmisdrijven met één en twee standaardafwijkingen vanaf het gemiddelde.png

Inleiding tot statistiek

Kwartielen

  • Kwartielen:
    • verdelen de data in vier gelijke delen

 

Misdrijf 0% 25% 50% 75% 100%
Inbraak 1,432.00 2,681.75 3,416.50 4,392.00 5,183.00
Straatroof 363.00 895.75 1,354.50 1,976.50 4,156.00
Diefstal 4,090.00 7,739.75 9,624.00 12,059.00 40,278.00
Voertuigfeiten 2,143.00 4,838.25 6,424.50 7,520.75 11,292.00
Inleiding tot statistiek

Kwartielen

  • Kwartielen:
    • verdelen de data in vier gelijke delen

 

Misdrijf 0% 25% 50% 75% 100%
Inbraak 1,432.00 2,681.75 3,416.50 4,392.00 5,183.00
Straatroof 363.00 895.75 1,354.50 1,976.50 4,156.00
Diefstal 4,090.00 7,739.75 9,624.00 12,059.00 40,278.00
Voertuigfeiten 2,143.00 4,838.25 6,424.50 7,520.75 11,292.00

 

  • Tweede kwartiel (50%) = mediaan
Inleiding tot statistiek

Boxplots

boxplot van berovingen in Londen met mediaan plus eerste en derde kwartiel gemarkeerd.png

Inleiding tot statistiek

Interkwartielafstand (IQR)

boxplot van berovingen in Londen met interkwartielafstand gemarkeerd.png

  • IQR wordt minder beïnvloed door extreme waarden

          IQR = 3e kwartiel - 1e kwartiel

                IQR = 1976.50 - 895.75

                       IQR = 1080.75

Inleiding tot statistiek

Laten we oefenen!

Inleiding tot statistiek

Preparing Video For Download...